当前位置:笔趣阁>都市小说>重生之AI教父> 第207章 Attention is all you need
阅读设置(推荐配合 快捷键[F11] 进入全屏沉浸式阅读)

设置X

第207章 Attention is all you need(2 / 2)

注意力机制加上高清图片是比较合理的,通过注意力的筛查,可以剔除图片中不重要的部分,从而大大减少计算量。

孟繁岐微微点了点头,心中想着:“图片中的像素其实是非常冗余的,比如人类就可以轻松通过很局部的内容推测出物体的全貌,根据恺明后来的研究,甚至只需要原本百分之十几二十的像素,就可以完成图像的重构。”

“借助注意力来筛掉一部分像素,的确可以极大地减少计算量。使用这种办法,就可以在原本的速度下采用更高分辨率的图像,对关键的部分会处理得更加清楚,也就更加准确。”

孟繁岐认同这种做法,不过那是在图像任务当中了,在语言问题当中是大不一样的。人类的语言信息含量是非常高,密度也很大,即便只少一两成信息,甚是一两个字的差别,都很有可能会彻底改变句子的含义。

比如【我很喜欢】和【我不喜欢】,一字之差含义完全就不对了。因而类似的做法在语言上是不大行得通的。

不过可以像伊利亚一样,换一个做法去使用注意力机制。

“注意力机制如果应用在语言和文本当中,其实计算的就是一个【相关程度】,一个句子当中每一个词与其余词的相互关系和相关的情况。”

孟繁岐也没想到伊利亚的思路这么灵活,自己年初刚刚在搜索引擎中稍微利用了一下类似的概念,也没有写作论文,但伊利亚就很快捕捉到了这种技术在翻译类型任务上的可能性。

“天才人物对技术的嗅觉果然不得了啊...”孟繁岐有些感慨。

注意力机制毕竟二十年来都是图像领域的概念,它使用到语言文本里的形式是有很大变化的,这里面听起来很像很容易,但实际上的差距并不小,不是那么容易就能想明白的。

更别提用代码去实现了。

“如果使用注意力机制的话,为什么还一定非要使用旧的循环网络和长短期记忆不可呢?”

孟繁岐指出了这个思维惯性不合理的地方。

“传统的循环神经网络建构语言的时间序列信息,前面的词都要依次传递到后面的词上面,这种信息的反复堆积有些浪费,并且全都堆在一起,直觉上不好区分。”

上一页 目录 +书签 下一章