AI能写代码却算不对小学乘法，大模型缺陷曝光|调用|算术

AI能写代码却算不对小学乘法，大模型缺陷曝光

分享至

哈喽，大家好，我是小今。这篇来聊聊AI的奇怪反差：能写复杂代码却算不对小学乘法？这背后藏着大模型的致命短板！你敢信？

能帮程序员写复杂代码、给研究员做逻辑推理的顶尖AI大模型，面对小学四年级水平的四位数乘法题，正确率居然不到1%？这不是网上的搞笑段子，而是芝加哥大学牵头的科研团队实打实的研究发现，连麻省理工、哈佛的研究者还有谷歌DeepMind的专家都参与了这项研究，成果已经发布在arXiv预印本服务器上。

“偏科”AI的怪象：崎岖的前沿

研究团队把这种奇特的现象叫做“崎岖前沿”，特别形象。你可以想象一个学生，奥数题能拿国际金牌，但简单的加减乘除却频频出错，简直就是个“偏科怪才”。我们的AI大模型就像这个学生，在需要大量数据模式识别和复杂推理的任务中表现卓越，可一旦遇到需要精确、一步步来、环环相扣的基础数学运算，它就彻底歇菜了。

更让人不解的是，无论是只有两层的“小”模型，还是结构复杂、参数庞大的十二层“大”模型，在这种基础乘法题上都无一幸免，集体“翻车”。这表明问题并非出在模型大小上，而是更深层次的根本性缺陷。那么，究竟是什么让AI拥有了“高智商低情商”般的算术能力呢？

忘性大？AI的“长程依赖”困境

其实，核心问题出在AI的“记性”上，或者说，它在处理任务时，无法有效“记住中间步骤”。用专业术语讲，这叫“长程依赖”问题。

回想我们小时候学乘法，比如让你算3876乘以5214。我们是不是得先算3876乘以4，得出第一个部分积，然后记下进位，接着算3876乘以10（其实是乘以1），把第二个部分积写下来，再记住进位，依此类推，直到算出所有部分积。

最后，我们会把这些暂时存放在脑子里或草稿纸上的中间结果，一步步累加起来，才能得出最终的答案。这个“暂存中间信息，并在后续步骤中持续调用”的能力，就是我们人类解决乘法问题的关键，也是“长程依赖”的最好体现。乘法运算环环相扣，每一步的计算都紧密依赖前面的中间结果和进位，漏掉一步，或者记错了任何一个中间值，最终结果就可能谬之千里。

但面对乘法这种需要严格按照逻辑链条一步步推进、精确计算中间结果并持续依赖的任务，光靠“找规律”就彻底抓瞎了。它无法像我们一样，在“脑子”里建立一个临时的“草稿纸”，用来存储和调用这些关键的中间信息。

陷入“局部最优解”的泥潭

更糟糕的是，标准的AI训练方法，还常常会让模型陷入一种“局部最优解”的困境。你可以想象你在爬山，想找这座山的最高峰，结果你爬到一个小土坡，以为那就是山顶了，于是就在这个小土坡上反复打转，再怎么努力，也永远到不了真正的最高峰。

AI也是如此。在训练乘法时，它可能学会了一些“表面规律”，比如某些数字的组合偶尔会对应某个结果，但它并没有掌握乘法背后的真正逻辑。它在这些“小土坡”上反复优化，殊不知，真正的“高峰”需要完全不同的攀登路径，也就是需要一套能够处理中间信息和逻辑依赖的机制。

所以，即便我们把模型做得再大，训练时间再长，只要它的架构上不支持存储和调用中间信息，乘法题它还是算不对。这就像给一个没有“计算器”功能的大脑，塞再多的数据，它也无法完成复杂的计算。

曙光乍现：ICoT与AI的“逻辑复苏”

不过，研究团队并没有止步于发现问题，他们也带来了解决之道！他们开发了一种名为“隐式思维链”（ICoT，Implicit Chain of Thought）的训练方法。用这种方法训练出来的模型，在四位数乘法上的准确率竟然能达到惊人的100%！这简直是奇迹！

为了弄明白ICoT为什么如此有效，团队仔细对比了用ICoT训练的模型和标准模型，就像给AI做了一次深度脑部解剖，结果发现了三个关键性的差异，揭示了AI如何从“算数盲”变身为“数学天才”的秘密。

第一个也是最关键的差异是，ICoT模型竟然“学会了做笔记”！它能清晰地追踪乘法过程中的所有中间信息，比如每一步的部分积、进位数字。研究人员甚至可以从模型的内部状态里，直接“读”出这些关键的中间值，就像从一份整洁的草稿纸上查看步骤一样。

而标准模型呢？这些信息早就混成一团，根本无法辨认。这就像一个学霸做数学题，每一步都写得清清楚楚，而学渣则全靠脑子记，结果脑子一团浆糊，最终答案自然天差地别。ICoT帮助AI重建了记忆的链条，让它不再“忘事”。

这种有条理的分工协作，让信息处理变得高效有序。反观标准模型，它的注意力是混乱的，东看一眼，西记一下，根本无法有效组织和处理信息。

最令人拍案叫绝的，是第三个差异：ICoT模型竟然在训练过程中“无师自通”，自己发明了一套高效的计算工具！它没有把数字仅仅当作是符号，而是把数字编码成了类似波形的模式，并且还使用了一种叫做“闵可夫斯基和”的几何方法来计算乘法。

请注意，这些能力可不是研究人员一行行代码写进去教它的，而是模型在训练过程中，为了解决乘法问题，自己慢慢摸索、涌现出来的！这简直就像AI为了完成任务，自己创造了一套“数学语言”和计算方法，其自主学习和创新的潜力，令人叹为观止。

简单的改动，巨大的飞跃：未来的希望

基于这些突破性的发现，研究团队还给出了一个简单得令人难以置信的修复方案：给标准模型的训练过程，仅仅加一个小小的目标，让它学会追踪每一步的累加总和，把中间值和部分积传递下去。就这么一个看似微不足道的小改动，原本正确率不到1%的双层模型，准确率直接飙升到了99%！

而且，还不用额外教它一步步推理的方法。更厉害的是，经过这样训练的模型，甚至自己摸索出了新的计算策略，比如能够同时处理多个数字对的乘法，大大提高了效率。

这说明，有时候解决AI难题，并不需要堆砌更多的数据或更大的模型，而是需要找到那个关键的“引导点”，轻轻拨动一下，就能触发它潜藏的巨大潜能。

告别“野路子”：AI的未来在于逻辑与记忆

或许有人会说，不就是个乘法题吗，犯得着这么较真？但这项研究的意义，远不止让AI会算乘法那么简单。它像一面镜子，照出了整个AI行业的一个深层误区：我们不能盲目地认为模型越大、训练数据越多，AI的能力就一定越强。

牵头这项研究的谭晨浩教授一针见血地指出，现在AI越来越多地参与到关键决策中，所以搞懂它到底是怎么学习、怎么“思考”的，比它能做什么，有时候更重要。这项研究的核心价值在于告诉我们：想让AI真正变强，关键不是一味地堆参数、堆数据，而是要给它正确的“引导”，在架构上支持它的记忆和逻辑能力。

这相当于在提醒我们，AI在数学问题上之所以表现不稳定，是因为它一直用“找规律”这种“野路子”去解决需要严格逻辑推理的问题，就像一个厨师试图用锤子去切菜。未来的AI系统，可能需要把“记忆”和“逻辑运算”这两种能力区分开来，分别给它们提供更专门的支持，才能从根本上解决“能写代码却算不对乘法”的尴尬。

这项研究为AI的发展指明了一个新的方向：与其盲目地追求模型规模的“高大上”，不如先把AI最基础的“记忆和逻辑能力”打磨好。毕竟，一个连基础乘法都搞不定的AI，你让它去处理再复杂的推理任务，里面也可能藏着巨大的隐患。只有打好地基，大厦才能真正稳固。

声明：个人原创，仅供参考

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.