![]()
能写复杂代码,能做推理分析,但遇到小学四年级的四位数乘法题就懵了,这就是当下最先进AI大模型的真实写照。听起来像段子,但这是芝加哥大学团队在最新研究中发现的实实在在的问题。
这项发表在arXiv预印本服务器上的研究,由芝加哥大学博士生白晓燕和教授谭晨浩牵头,联合麻省理工、哈佛、滑铁卢大学和谷歌DeepMind的研究者共同完成。他们发现,标准训练方法下,AI模型在两个四位数相乘的任务上准确率不到1%,而且从两层到十二层的模型都一样惨。
![]()
这个现象被研究团队称为"崎岖前沿",就是说AI能搞定复杂推理,但在看起来简单的任务上却会翻车。为啥会这样?答案藏在"长程依赖"这个概念里。
为什么标准训练方法会失效
记得小时候学乘法吗?遇到大数相乘,你得记住进位,还得把部分乘积在脑子里"暂存"起来,最后再把它们加在一起。这种需要在过程中存储信息以便后续使用的能力,就叫"长程依赖"。
![]()
乘法运算具有长程依赖性,这种依赖性可以通过中间值 cˆ i来捕捉,由此可以推导出解 (c i ) 和进位 (r i )。
标准的大语言模型主要靠识别训练数据里的模式来工作。问题越复杂,模型见过类似情况的概率就越小。那怎么才能让模型不只是背答案,而是真正学会整个计算过程呢,这就是关键所在。
研究团队发现,标准微调方法会让模型陷入"局部最优解"的陷阱。就好比你爬山找最高峰,结果爬到个小山包就以为到顶了,实际上真正的山顶还在更远的地方。模型在没有能够存储和检索中间信息的架构支持下,根本跨不过这道坎,无论你训练多久或者把模型做多大都没用。
![]()
但研究者找到了一个成功的案例,一种叫"隐式思维链"(ICoT)的训练方法。用这个方法训练的模型,准确率能达到100%,这就有意思了。为了搞清楚为什么,团队对两种模型进行了深度解剖。
他们发现第一个关键差异:ICoT模型学会了记住重要信息。不像标准模型那样稀里糊涂,ICoT模型能追踪那些长程依赖关系,也就是它一步步整合起来解决问题的中间信息。研究团队通过测试能不能从模型内部状态解码出中间值(比如累计总和)来验证这一点,结果在ICoT模型里可以做到,标准模型里完全不行。
ICoT方法在训练过程中会逐步消除中间推理步骤,强迫模型把推理过程内化到隐藏状态里,而不是依赖显式的逐步标记。这有点像教小孩心算,一开始可以掰手指,慢慢就得在脑子里算了。
第二个发现更精彩:ICoT模型会把注意力组织成随时间演进的不同路径。想象一个井然有序的文件系统,在早期层,模型计算数字对的乘积,并把结果存在特定位置,后续层再精确地检索出计算最终答案每一位数字所需的数值。这形成了一种高效的内部乘法结构,而标准模型里压根就没这玩意。
最让人惊讶的是第三点,ICoT模型内部用了精妙的数学结构来表示运算。它不是简单把数字当符号处理,而是编码成傅里叶基的波形模式,以一种可视化、空间化的方式组织算术运算。在做数字对乘法时,模型用了一种叫闵可夫斯基和的几何运算,这可不是研究人员编程写进去的,而是训练过程中自然涌现出来的。就好像这个成功模型自己发明了一套高效的数学语言来干活。
一个简单的修复方案
既然知道标准微调模型失败是因为缺乏正确指导,那给它提供正确的训练信号不就行了?研究团队引入了一个简单的解决方案:增加一个训练目标,教会模型追踪每一步的累加总和,让模型能把中间值和部分积传递下去。
结果真的奏效了。原本在标准训练下彻底失败的双层模型,加了这一项后准确率直接飙升到99%,而且不需要显式的思维链监督。分析模型的注意力模式后发现,它已经学到了跟ICoT类似的机制,能根据需要存储和检索部分积。更厉害的是,模型还发展出其他策略,包括同时追踪多个数字对的方法。
虽然乘法看起来是个特殊任务,但研究成果揭示了大语言模型如何学习和"思考"的基本原理。长程依赖问题不只出现在算术里,它贯穿于语言建模和其他序列任务。谭教授说:"随着AI越来越多地融入关键决策过程,了解它独特的学习和思维方式至关重要。"
这项研究的核心贡献在于:架构洞察和训练技术能克服单靠扩大规模解决不了的障碍。正确的内置指导,而不仅仅是更多参数或数据,才是推动AI能力发展的关键,研究团队预计未来会开发更通用的方法,来改进那些需要模型跨多个步骤追踪信息的任务。
这个发现也解释了为啥AI大模型在数学上表现总是不太稳定。它们试图用模式匹配来解决需要严格逻辑推理的问题,这本身就是用错了工具。未来的AI系统可能需要更明确地区分记忆和逻辑这两种不同的能力,并在架构上为它们提供不同的支持。
作品声明:仅在头条发布,观点不代表平台立场
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.