第108章意外的物理学经验（1 / 2）

[笔趣阁]:bqge9. c o m 一秒记住！

2025年1月，还有一件事对徐辰影响很大。

这个月，发生了一件科技界的大事。

各大国内主流新闻APP的头版头条都在推送一条消息：

标题，充满了科技感与冲击力。

【「中国AI的『GPT-4时刻』？DeepSeek-R1横空出世，性能全面超越，并宣布开源！」】

「DeepSeek-R1？」徐辰的眉毛，微微一挑。

（请记住看台湾小说就上台湾小说网，?????.???随时看网站，观看最快的章节更新）

在过去的几个月里，以ChatGPT为代表的大语言模型（LLM），如同平地惊雷，在全球范围内，掀起了一场前所未有的科技革命。

【大语言模型……AI……】

徐辰的心中，泛起了一丝好奇。

他虽然主攻的是纯粹数学，但对于这些代表着人类科技最前沿的「时髦」玩意儿，也并非一无所知。

他打开电脑，搜索到了DeepSeek-R1的开源论文。

他饶有兴致地，开始阅读起来。

论文的前半部分，是关于模型训练所使用的数学理论。

「……我们采用了改进的『注意力机制』（AttentionMechanism），其核心，是将输入序列中的每一个词向量，都映射到『查询（Query）』丶『键（Key）』丶『值（Value）』这三个向量空间中。通过计算Query与所有Key的点积相似度，并进行Softmax归一化，来得到每个Value的权重……」

【嗯，有点意思。】徐辰的眼中，闪过一丝了然。

【这个思路，本质上是线性代数中『投影』与『加权平均』思想的一种精妙应用。它通过点积来衡量向量间的『相关性』，再用Softmax函数将这种相关性转化为概率权重，从而让模型能够动态地聚焦于输入序列中最关键的部分。】

「……在优化器（Optimizer）的选择上，我们采用了Adam算法，它结合了『动量法』（Momentum）和『RMSProp』的优点，能够自适应地，为不同参数，调整学习率……」

【原来如此。】徐辰点了点头。

【这可以看作是常微分方程中『梯度下降法』的一种高级变体。它引入了『动量』这个物理概念，模拟一个在损失函数曲面上滚动的小球，利用惯性冲过平坦区域和局部极小值点，从而加速收敛。而自适应学习率，则相当于为这个小球，在不同陡峭程度的路面上，配备了智能的刹车和油门系统。】

论文中那些在AI工程师看来，极其高深复杂的数学原理，在徐辰这个LV.2级别的「数学家」眼中，却如同庖丁解牛，每一个结构，每一处关节，都清晰可见。

他只花了不到半个小时，就将论文中所有的数学部分，全部吃透，甚至还能举一反三地，思考出几种可能的改进方向。

【整个大语言模型，从数学上看，可以被视为一个极其高维的丶非线性的函数逼近器。它的训练过程，就是在数十亿甚至数千亿个参数构成的空间中，通过梯度下降，寻找一个能最小化『损失函数』的最优解。而『注意力机制』，则为这个庞大的函数，提供了高效的『剪枝』策略，使其能够专注于处理长距离的依赖关系。】

然而，当他看到论文的后半部分，关于「神经网络架构」和「模型训练」的内容时，他的眉头，却渐渐地，锁了起来。

「Transformer架构」丶「多头注意力」丶「残差连接」丶「层归一化」……

这些属于计算机科学和人工智慧领域的专业术语，对他而言，就如同一个个陌生的路标，指向一片他从未踏足过的未知领域。

如果不了解神经网络为什麽能拟合任何函数（万能逼近定理），对后续的深层神经网络乃至于Transformer架构就更加不知道具体的工作机制了。

【对于AI，确实还存在着巨大的『盲区』。】

他没有气馁，反而燃起了一股强烈的求知欲。

他打开电脑，开始在网上，疯狂地，搜索着关于「大语言模型」的基础知识。

从最基础的「感知机」模型，到「深度神经网络」，再到「循环神经网络（RNN）」和「长短期记忆网络（LSTM）」，最后，才是当今大模型的核心——「Transformer」。

就在他将一篇关于「Transformer」核心架构的经典论文——《AttentionIsAllYouNeed》，看到一半时。

他脑海中，那冰冷的系统提示音，毫无徵兆地，响了起来！

【叮！检测到宿主正在学习『人工神经网络』相关知识，认知边界拓展……】

【信息学经验值+2！】

【物理学经验值+1！】

【生化学经验值+1！】

「嗯？！」

徐辰的动作，猛地一顿！

他有些难以置信地，调出了自己的系统面板。

信息学经验值+2，很好理解，因为AI就是通过计算机来实现的，计算机相关的知识自然属于信息学的范畴。

但是，在「物理学」和「生化学」那两条几乎还是空白的经验条后面，都出现了一个小小的「+1」！

【什麽情况？！】

【我明明是在学计算机和AI，怎麽会加了物理和生化的经验？！】

【系统，你是不是出BUG了？】

他先是一愣，随即，陷入了沉思。

【生化学经验+1，这个……倒还勉强能够理解。】

【毕竟，『神经网络』这个词，本身就是对人脑神经元结构的仿生学模拟。我学习它的工作原理，就等于，是在从一个抽象的丶信息学的角度，去间接地，理解生物大脑的构造。这算是了解生物构造的一部分，倒也是说得通。】

𝔹 q 🅖e 9. co 𝓂

本章未完，请点击下一页继续阅读

章节报错(免登录)

第108章 意外的物理学经验（1 / 2）

第108章意外的物理学经验（1 / 2）