辛顿听完微微扬眉,学界不少年轻天才甚至老学究,都对自己的技术盲目自信和吹捧。
甚至不乏那种相互之间斗嘴皮子,争夺某某技术首发头衔的情况。
像孟繁岐这样,没几个月就开始反思自己技术不足之处的,还挺少见的。
毕竟目前学界对GAN的评价是相对更高的,后续跟进的研究也更多。
“我们首先理解一下生成模型的本质,其实就像是一百个样本里采样十个,我们称呼这十个为X,用这个十个样本学到它的分布p(X)。使用这个分布,就能够得到未被采样的数据。”
辛顿也加入了进来,他直接从最基础的部分开始分析。
“现在的问题就是,这个分布太难了,没法直接学到。因此我们退而求其次,使用一个满足特定分布的隐变量Z来生成这些样本X。计算p(X)=SUMz(p(X|Z)p(Z)),其中p(X|Z)为后验分布,p(Z)是先验分布。”
“VAE的核心就是假设了p(Z)和每一个p(Xi|Z)均为正态分布。他的学习是Xi和Z的关系,而不是你的GAN里面,X与X'的关系。”
辛顿的分析非常老辣,直指最关键的地方。
“这一点确实比GAN简单了很多。”
孟繁岐不得不承认这一点,已经知道是正态分布的情况下,这种学习就是小学二年级知识内容了,学均值和方差就可以。
Z是我们自己假设的,Xi是采样已知的,这种学习方式很容易就能学到这些已知的样本。
VAE通过专属与某个样本的Zi建立了X与X'之间原本很难学习对比的问题,属于相当聪明的做法。
不过这也导致VAE有时候生成的图像比较糊,不如GAN清晰。
前面说的这些部分属于是AE,自编码器,而V指得则是在自编码器基础上添加的正态分布的随机采样,也就是高斯噪声。
这种噪声的添加,使得希望获得的生成器对噪声和干扰比较鲁棒,生成器训练不好的时候,噪声会低一些,生成器逐渐效果很好的时候,噪声又会增加。
本质上和GAN非常类似。
而孟繁岐想要提出的扩散模型,则是VAE的一种升级版本,同样的,也是GAN的一种升级版本。
它集合了两家之长,取其精华去其糟粕。
“变分自编码器有一个核心的问题,就是这个变分后验p(X|Z)表达能力和计算代价鱼和熊掌不可兼得。变分方法如果简单,表达能力就不丰富;而复杂的变分计算,计算损耗又太大了。”