第207章 Attention is all you need（1 / 2）

原本发布T方法的论文名为《Attention is all you need》，意思是注意力机制就已经完全足够满足你的所有那些乱七八糟的技术需求了。

这项工作不仅引发了注意力技术的狂潮，顺带还引发了一波起名的狂潮。一时间，满大街都是XXX is all you need样式的名字。

这篇论文的一大意义是彻底抛弃了传统的循环网络和卷积网络结构，推陈出新，而是仅仅只使用注意力机制来处理机器翻译问题，并且取得了非常好的效果。

此前，人们一般都认为，注意力机制只能作为一种辅助道具，协助传统的网络来学习特征。

此后，这种全新的T方法迅速成为了语言类研究的重点方向，并且衍生出了BERT和GPT两个经典的路线，后者更是进化出了ChatGPT这个家喻户晓的新颖技术。

“注意力机制这个概念其实已经有了很多年了，差不多跟我的年龄一样大。”九几年的时候，注意力概念就已经在计算机视觉领域产生。

“它的概念也非常好理解，就像是直播中捕捉视觉的眼动仪，可以在直播画面上显示主播眼睛正在观察的地方。注意力机制的目的，就是为了让深度神经网络可以起到类似的效果，迫使神经网络去关注图片中的重要部分。”

比如孟繁岐最开始参加的千分类图像竞赛，人工智能模型或许可以正确地识别了这张图片的内容，但是真正让它做出这个判断的原因，却很可能大大出乎你的意料。

它识别出图像中的内容是猫，却非常有可能并不是因为它的【注意力】在关注图像中的猫，神经网络也许压根就没有在看图像中的猫这个生物，它在看别的。

或许是因为图像中有猫粮，或者图片的角落有【猫】相关的水印，又或者它可能是发现周边都是草地的图片内容往往是猫，因而一看到绿色的草地，就会做出类似的判断。

当然，更有可能的是出于某种人类无法理解和解释的原因。

虽然看的地方不对，结果却是正确的，这种现象很容易被研究者们忽略，是非常危险的。

这种缺陷可以通过大量的数据和各种其他技术手段去弥补。如果没有做好这些事情，模型在训练测试的时候往往会表现得非常出色，可等到实际投入使用的时候，就很可能出大问题。

“隔壁有同事在尝试把你写的注意力算子应用在高分辨率的图片上，以求降低计算成本。”

伊利亚分享了一下谷歌内部相关的情况：“我这边也在考虑，在循环网络或者长短期记忆网络上结合注意力，去处理翻译任务。”