第312章历景铄的神经网络模型进展（1 / 2）

第312章历景铄的神经网络模型进展

有了燧火这么一个趁手的算法工程工具，历景铄的神经网络算法研发进度可谓突飞猛进。

两个月前，经过多次尝试，他成功复现了当下学界比较流行的感知机神经网络训练结果，在手写数字识别任务上，已经达到了百分之七十的正确率。

这一成果在国内研究环境中，已然十分亮眼，但历景铄的目光并未就此满足，他深知前路漫漫，还有更多的未知等待探索，于是赶忙找到秦奕开始认真商量下一步的探索方向。

神经网络算法模型的研发有三大关键要素：数据、模型和优化算法。

在神经网络体系中，数据是极为重要的基础部分，数据的质量优劣、规模大小以及多样性程度，对模型的学习能力与泛化能力有着全面且关键的影响。

当数据足够多样时，模型便不会局限于学习某一类特定的数字特征，而是可以提炼出更具通用性、更普遍适用的特征模式，从而在面对从未见过的新数字样本时，也能准确识别。

但要是数据存在偏差，比如手写数字识别任务里的数据某些数字样本数量过多，而另一些过少，模型在学习时就会过度倾向于数量多的数字特征，使得对其他数字的识别能力大幅下降，严重损害泛化性能。

历景铄为了方便对比漂亮国学术界的研究成果，一开始没有去耗费大量精力构建自己独有的数据集，用的是漂亮国现成的数据集——漂亮国国家标准与技术研究院的公开 NIST 手写数字数据集。

这个数据集是前世被广泛应用于学术研究和工业实践中的手写数字识别领域基准测试数据集 MNIST 的前身，每个样本都是 28×28 像素的灰度图像，代表0 - 9之间的一个数字。

不过 MNIST 数据集包含六万个训练样本和一万个测试样本，而目前 NIST 数据集目前只有两万个训练样本和五千个测试样本。

随后，话题转到模型架构上，这是历景铄目前希望改进的重点。

他拿起一支笔，在纸上简单画了个神经网络结构草图，说道：“模型架构是神经网络的核心，具体分为网络结构和参数两大部分。”

第312章 历景铄的神经网络模型进展（1 / 2）