哈喽,大家好,我是小今。这篇来聊聊AI的奇怪反差:能写复杂代码却算不对小学乘法?这背后藏着大模型的致命短板!你敢信?
能帮程序员写复杂代码、给研究员做逻辑推理的顶尖AI大模型,面对小学四年级水平的四位数乘法题,正确率居然不到1%?这不是网上的搞笑段子,而是芝加哥大学牵头的科研团队实打实的研究发现,连麻省理工、哈佛的研究者还有谷歌DeepMind的专家都参与了这项研究,成果已经发布在arXiv预印本服务器上。
![]()
![]()
“偏科”AI的怪象:崎岖的前沿
研究团队把这种奇特的现象叫做“崎岖前沿”,特别形象。你可以想象一个学生,奥数题能拿国际金牌,但简单的加减乘除却频频出错,简直就是个“偏科怪才”。我们的AI大模型就像这个学生,在需要大量数据模式识别和复杂推理的任务中表现卓越,可一旦遇到需要精确、一步步来、环环相扣的基础数学运算,它就彻底歇菜了。
更让人不解的是,无论是只有两层的“小”模型,还是结构复杂、参数庞大的十二层“大”模型,在这种基础乘法题上都无一幸免,集体“翻车”。这表明问题并非出在模型大小上,而是更深层次的根本性缺陷。那么,究竟是什么让AI拥有了“高智商低情商”般的算术能力呢?
![]()
![]()
忘性大?AI的“长程依赖”困境
其实,核心问题出在AI的“记性”上,或者说,它在处理任务时,无法有效“记住中间步骤”。用专业术语讲,这叫“长程依赖”问题。
回想我们小时候学乘法,比如让你算3876乘以5214。我们是不是得先算3876乘以4,得出第一个部分积,然后记下进位,接着算3876乘以10(其实是乘以1),把第二个部分积写下来,再记住进位,依此类推,直到算出所有部分积。
最后,我们会把这些暂时存放在脑子里或草稿纸上的中间结果,一步步累加起来,才能得出最终的答案。这个“暂存中间信息,并在后续步骤中持续调用”的能力,就是我们人类解决乘法问题的关键,也是“长程依赖”的最好体现。乘法运算环环相扣,每一步的计算都紧密依赖前面的中间结果和进位,漏掉一步,或者记错了任何一个中间值,最终结果就可能谬之千里。
![]()
但面对乘法这种需要严格按照逻辑链条一步步推进、精确计算中间结果并持续依赖的任务,光靠“找规律”就彻底抓瞎了。它无法像我们一样,在“脑子”里建立一个临时的“草稿纸”,用来存储和调用这些关键的中间信息。
![]()
![]()
陷入“局部最优解”的泥潭
更糟糕的是,标准的AI训练方法,还常常会让模型陷入一种“局部最优解”的困境。你可以想象你在爬山,想找这座山的最高峰,结果你爬到一个小土坡,以为那就是山顶了,于是就在这个小土坡上反复打转,再怎么努力,也永远到不了真正的最高峰。
AI也是如此。在训练乘法时,它可能学会了一些“表面规律”,比如某些数字的组合偶尔会对应某个结果,但它并没有掌握乘法背后的真正逻辑。它在这些“小土坡”上反复优化,殊不知,真正的“高峰”需要完全不同的攀登路径,也就是需要一套能够处理中间信息和逻辑依赖的机制。
所以,即便我们把模型做得再大,训练时间再长,只要它的架构上不支持存储和调用中间信息,乘法题它还是算不对。这就像给一个没有“计算器”功能的大脑,塞再多的数据,它也无法完成复杂的计算。
![]()
![]()
曙光乍现:ICoT与AI的“逻辑复苏”
不过,研究团队并没有止步于发现问题,他们也带来了解决之道!他们开发了一种名为“隐式思维链”(ICoT,Implicit Chain of Thought)的训练方法。用这种方法训练出来的模型,在四位数乘法上的准确率竟然能达到惊人的100%!这简直是奇迹!
为了弄明白ICoT为什么如此有效,团队仔细对比了用ICoT训练的模型和标准模型,就像给AI做了一次深度脑部解剖,结果发现了三个关键性的差异,揭示了AI如何从“算数盲”变身为“数学天才”的秘密。
![]()
第一个也是最关键的差异是,ICoT模型竟然“学会了做笔记”!它能清晰地追踪乘法过程中的所有中间信息,比如每一步的部分积、进位数字。研究人员甚至可以从模型的内部状态里,直接“读”出这些关键的中间值,就像从一份整洁的草稿纸上查看步骤一样。
而标准模型呢?这些信息早就混成一团,根本无法辨认。这就像一个学霸做数学题,每一步都写得清清楚楚,而学渣则全靠脑子记,结果脑子一团浆糊,最终答案自然天差地别。ICoT帮助AI重建了记忆的链条,让它不再“忘事”。
![]()
这种有条理的分工协作,让信息处理变得高效有序。反观标准模型,它的注意力是混乱的,东看一眼,西记一下,根本无法有效组织和处理信息。
![]()
最令人拍案叫绝的,是第三个差异:ICoT模型竟然在训练过程中“无师自通”,自己发明了一套高效的计算工具!它没有把数字仅仅当作是符号,而是把数字编码成了类似波形的模式,并且还使用了一种叫做“闵可夫斯基和”的几何方法来计算乘法。
请注意,这些能力可不是研究人员一行行代码写进去教它的,而是模型在训练过程中,为了解决乘法问题,自己慢慢摸索、涌现出来的!这简直就像AI为了完成任务,自己创造了一套“数学语言”和计算方法,其自主学习和创新的潜力,令人叹为观止。
![]()
![]()
简单的改动,巨大的飞跃:未来的希望
基于这些突破性的发现,研究团队还给出了一个简单得令人难以置信的修复方案:给标准模型的训练过程,仅仅加一个小小的目标,让它学会追踪每一步的累加总和,把中间值和部分积传递下去。就这么一个看似微不足道的小改动,原本正确率不到1%的双层模型,准确率直接飙升到了99%!
而且,还不用额外教它一步步推理的方法。更厉害的是,经过这样训练的模型,甚至自己摸索出了新的计算策略,比如能够同时处理多个数字对的乘法,大大提高了效率。
这说明,有时候解决AI难题,并不需要堆砌更多的数据或更大的模型,而是需要找到那个关键的“引导点”,轻轻拨动一下,就能触发它潜藏的巨大潜能。
![]()
![]()
告别“野路子”:AI的未来在于逻辑与记忆
或许有人会说,不就是个乘法题吗,犯得着这么较真?但这项研究的意义,远不止让AI会算乘法那么简单。它像一面镜子,照出了整个AI行业的一个深层误区:我们不能盲目地认为模型越大、训练数据越多,AI的能力就一定越强。
![]()
牵头这项研究的谭晨浩教授一针见血地指出,现在AI越来越多地参与到关键决策中,所以搞懂它到底是怎么学习、怎么“思考”的,比它能做什么,有时候更重要。这项研究的核心价值在于告诉我们:想让AI真正变强,关键不是一味地堆参数、堆数据,而是要给它正确的“引导”,在架构上支持它的记忆和逻辑能力。
这相当于在提醒我们,AI在数学问题上之所以表现不稳定,是因为它一直用“找规律”这种“野路子”去解决需要严格逻辑推理的问题,就像一个厨师试图用锤子去切菜。未来的AI系统,可能需要把“记忆”和“逻辑运算”这两种能力区分开来,分别给它们提供更专门的支持,才能从根本上解决“能写代码却算不对乘法”的尴尬。
这项研究为AI的发展指明了一个新的方向:与其盲目地追求模型规模的“高大上”,不如先把AI最基础的“记忆和逻辑能力”打磨好。毕竟,一个连基础乘法都搞不定的AI,你让它去处理再复杂的推理任务,里面也可能藏着巨大的隐患。只有打好地基,大厦才能真正稳固。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.