第207章 Attention is all you need（2 / 2）

注意力机制加上高清图片是比较合理的，通过注意力的筛查，可以剔除图片中不重要的部分，从而大大减少计算量。

孟繁岐微微点了点头，心中想着：“图片中的像素其实是非常冗余的，比如人类就可以轻松通过很局部的内容推测出物体的全貌，根据恺明后来的研究，甚至只需要原本百分之十几二十的像素，就可以完成图像的重构。”

“借助注意力来筛掉一部分像素，的确可以极大地减少计算量。使用这种办法，就可以在原本的速度下采用更高分辨率的图像，对关键的部分会处理得更加清楚，也就更加准确。”

孟繁岐认同这种做法，不过那是在图像任务当中了，在语言问题当中是大不一样的。人类的语言信息含量是非常高，密度也很大，即便只少一两成信息，甚是一两个字的差别，都很有可能会彻底改变句子的含义。

比如【我很喜欢】和【我不喜欢】，一字之差含义完全就不对了。因而类似的做法在语言上是不大行得通的。

不过可以像伊利亚一样，换一个做法去使用注意力机制。

“注意力机制如果应用在语言和文本当中，其实计算的就是一个【相关程度】，一个句子当中每一个词与其余词的相互关系和相关的情况。”

孟繁岐也没想到伊利亚的思路这么灵活，自己年初刚刚在搜索引擎中稍微利用了一下类似的概念，也没有写作论文，但伊利亚就很快捕捉到了这种技术在翻译类型任务上的可能性。

“天才人物对技术的嗅觉果然不得了啊...”孟繁岐有些感慨。

注意力机制毕竟二十年来都是图像领域的概念，它使用到语言文本里的形式是有很大变化的，这里面听起来很像很容易，但实际上的差距并不小，不是那么容易就能想明白的。

更别提用代码去实现了。

“如果使用注意力机制的话，为什么还一定非要使用旧的循环网络和长短期记忆不可呢？”

孟繁岐指出了这个思维惯性不合理的地方。

“传统的循环神经网络建构语言的时间序列信息，前面的词都要依次传递到后面的词上面，这种信息的反复堆积有些浪费，并且全都堆在一起，直觉上不好区分。”