指令微调到底是否改变了模型的性能,这个问题其实并不好说。
不过前世有很多研究证明,指令微调的确可以使得模型的输出更加符合人类的风格,符合人类的偏好。
或许,微调前的模型其实已经理解了内容,掌握了对应知识,但它表达的方式和风格并不是人类的风格,又或者说,它不知道应该如何表达。
这也就导致了人类对它们的回应评价不高。
“大家不要小看指令微调,如果说随机参数生成的大模型就像是人类婴儿,经过首轮训练的GPT就像是刚刚完成九年义务教育的中学生。他们有基础的知识和写作能力,但如果想让他们在特定任务上独当一面,还需要进行专门的实习锻炼。”
“指令微调就像是一种引导,让大模型在少量的训练调整中,大概理解什么样的问题需要检索什么样的知识,如何回答才是更好的方式。”
“这种模式,我们之前在做AI医生的时候,已经有过非常详尽的流程和模版了,不熟悉的同事可以先去学习一下。”孟繁岐知晓这件事的重要性,因而从两年前开始收集数据的时候,早就规定了收集数据需要的格式。
一步到位,为后面省了不少事情。
上一次AI医生,之所以能用数亿的参数量做到那么好的效果,指令微调策略是贡献很大的。
他使得AI模型能够显得非常自信专业,很像是具备特定领域专业知识的老医生。
并且时刻知道自己的身份,会提醒患者去医院确认情况,不会过于自信。
“这一次的主要挑战在于我们要打造一个通用的语言大模型智能,因此多个方面和领域都需要微调,任务种类可能达到数千的级别。”
“我留给大家的时间并不多,可能只允许你们失败一次。有任何问题及时跟我联络协调,不要硬着头皮耗,到最后耽误了整体的进度,奖金扣光!”
孟繁岐平时对于薪水发放很好说话,但关键时刻也不会容许有人掉链子。
想做ChatGPT这样的通用模型,这一整套流程需要大家齐心协力完成,单只靠几个已经熟悉了这个过程的小团体就显得不够了。
【指令微调】需要用量来堆,前世大家的总结是,【对没有见过的指令也能做出正确反馈】这种奇特的智能能力,是在模型训练的指令数量超过一定程度之后,自动出现的。
很多家机构和模型,都在自己的训练过程中,发现了这样的现象。
说难听点就是,大力出奇迹了,量变产生了质变,并没有谁提前预料到了这个结果。