第190章从变分自编码到扩散模型（2 / 2）

辛顿听完微微扬眉，学界不少年轻天才甚至老学究，都对自己的技术盲目自信和吹捧。

甚至不乏那种相互之间斗嘴皮子，争夺某某技术首发头衔的情况。

像孟繁岐这样，没几个月就开始反思自己技术不足之处的，还挺少见的。

毕竟目前学界对GAN的评价是相对更高的，后续跟进的研究也更多。

“我们首先理解一下生成模型的本质，其实就像是一百个样本里采样十个，我们称呼这十个为X，用这个十个样本学到它的分布p(X)。使用这个分布，就能够得到未被采样的数据。”

辛顿也加入了进来，他直接从最基础的部分开始分析。

“现在的问题就是，这个分布太难了，没法直接学到。因此我们退而求其次，使用一个满足特定分布的隐变量Z来生成这些样本X。计算p(X)=SUMz(p(X|Z)p(Z))，其中p(X|Z)为后验分布，p(Z)是先验分布。”

“VAE的核心就是假设了p(Z)和每一个p(Xi|Z)均为正态分布。他的学习是Xi和Z的关系，而不是你的GAN里面，X与X'的关系。”

辛顿的分析非常老辣，直指最关键的地方。

“这一点确实比GAN简单了很多。”

孟繁岐不得不承认这一点，已经知道是正态分布的情况下，这种学习就是小学二年级知识内容了，学均值和方差就可以。

Z是我们自己假设的，Xi是采样已知的，这种学习方式很容易就能学到这些已知的样本。

VAE通过专属与某个样本的Zi建立了X与X'之间原本很难学习对比的问题，属于相当聪明的做法。

不过这也导致VAE有时候生成的图像比较糊，不如GAN清晰。

前面说的这些部分属于是AE，自编码器，而V指得则是在自编码器基础上添加的正态分布的随机采样，也就是高斯噪声。

这种噪声的添加，使得希望获得的生成器对噪声和干扰比较鲁棒，生成器训练不好的时候，噪声会低一些，生成器逐渐效果很好的时候，噪声又会增加。

本质上和GAN非常类似。

而孟繁岐想要提出的扩散模型，则是VAE的一种升级版本，同样的，也是GAN的一种升级版本。

它集合了两家之长，取其精华去其糟粕。

“变分自编码器有一个核心的问题，就是这个变分后验p(X|Z)表达能力和计算代价鱼和熊掌不可兼得。变分方法如果简单，表达能力就不丰富；而复杂的变分计算，计算损耗又太大了。”

第190章 从变分自编码到扩散模型（2 / 2）