![]()
AI能写复杂代码、做逻辑推理,却搞不定小学四年级的四位数乘法。
这事听着像段子,却是真实存在的研究发现。
芝加哥大学有个团队做了项研究,牵头的是博士生白晓燕和教授谭晨浩,还联合了麻省理工、哈佛这些名校以及谷歌DeepMind的研究者,他们的成果发在了arXiv预印本服务器上。
![]()
谁能想到最先进的AI会栽在这种基础算术上。
团队测试了不同层数的模型,从两层到十二层,结果都一样惨,四位数相乘的正确率低得可怜。
这种“能搞定复杂推理,却在简单任务上翻车”的现象,被研究团队命名为“崎岖前沿”。
本来想,是不是模型层数不够、训练数据太少?但测试下来发现不是这么回事。
![]()
哪怕把模型做得更大、训练时间拉得更长,准确率还是上不去。
这就有意思了,AI处理代码编写、数据分析这种高难度任务时游刃有余,怎么偏偏在乘法这种人类小学生都能掌握的技能上掉链子?
后来才明白,问题的关键不在任务难度高低,而在任务本身的特性。
咱们人类做四位数乘法时,得记住进位,还得把中间算出来的部分积暂时存着,最后再汇总相加。
![]()
这种需要暂存中间信息并用到后续步骤里的能力,学术上叫“长程依赖”。
AI搞不定乘法,核心就是缺了这方面的能力。
标准的大语言模型,本质上是靠识别训练数据里的模式来工作的。
复杂任务虽然难,但可能存在更多可复用的模式,可四位数乘法的组合太多了,模型根本没法靠记忆覆盖所有情况。
![]()
更麻烦的是,标准的微调方法会让模型陷入“局部最优解”的陷阱。
打个比方,这就像爬山找最高峰,模型爬到一个小山包就以为到顶了,压根不知道真正的山顶还在更远的地方。
没有能存储和检索中间信息的架构支持,再怎么训练都是白费功夫。
这一点挺颠覆认知的,以前大家总觉得“模型越大、参数越多,能力就越强”,现在看来并非如此。
![]()
长程依赖问题也不是只出现在乘法里。
如此看来,这个问题其实是大模型的共性短板,只是在乘法这种需要精准分步计算的任务上,暴露得更明显而已。
就在大家觉得没办法的时候,研究团队发现了一个成功案例,用“隐式思维链”训练的模型,做四位数乘法的准确率居然能达到百分之百。
![]()
我特意去了解了下这种训练方法,它不是让模型一步出答案,而是强迫模型把推理过程内化到自身的隐藏状态里,不用依赖显式的分步标记。
这有点像教小孩心算,一开始可以掰手指、写草稿,慢慢就得在脑子里完成整个过程。
研究团队解剖这两种模型后发现,用隐式思维链训练的模型,首先学会了记住重要的中间信息,从它的内部状态里能解码出累计总和这些关键数据,标准模型却完全做不到。
更让人惊讶的是,这种模型还会自己组织注意力路径。
![]()
早期的网络层负责计算数字对的乘积并存储,后续层再精准检索需要的数值,形成了一套高效的内部运算结构。
甚至,它还自发形成了精妙的数学结构,用傅里叶基的波形模式编码数字,通过闵可夫斯基和这种几何运算来处理乘法,这些都不是研究人员编程写进去的。
基于这个发现,团队还给出了一个简单的解决方案:在标准训练里加一个目标,让模型学会追踪每一步的累加总和。
没想到效果立竿见影,原本彻底失败的双层模型,准确率一下子就提了上来,还自己学会了类似的存储检索机制。
![]()
毫无疑问,这项研究的价值远不止让AI学会乘法。它揭示了大模型学习和思考的基本原理,证明了正确的训练引导和架构设计,比单纯堆参数、堆数据更重要。
这也解释了为啥AI在数学上的表现总不稳定,用模式匹配的思路去解决需要严格逻辑推理的问题,本身就是用错了工具。
未来的AI要想真正走向“智能”,可能需要明确区分记忆和逻辑这两种能力,在架构上给它们提供针对性的支持。
随着AI越来越多地融入关键决策过程,搞清楚它的学习规律,找到正确的提升方向,远比追求参数规模的堆砌更有意义。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.