网易首页 > 网易号 > 正文 申请入驻

AI能写代码却算不对小学乘法,大模型缺陷曝光

0
分享至

哈喽,大家好,我是小今。这篇来聊聊AI的奇怪反差:能写复杂代码却算不对小学乘法?这背后藏着大模型的致命短板!你敢信?

能帮程序员写复杂代码、给研究员做逻辑推理的顶尖AI大模型,面对小学四年级水平的四位数乘法题,正确率居然不到1%?这不是网上的搞笑段子,而是芝加哥大学牵头的科研团队实打实的研究发现,连麻省理工、哈佛的研究者还有谷歌DeepMind的专家都参与了这项研究,成果已经发布在arXiv预印本服务器上。





“偏科”AI的怪象:崎岖的前沿

研究团队把这种奇特的现象叫做“崎岖前沿”,特别形象。你可以想象一个学生,奥数题能拿国际金牌,但简单的加减乘除却频频出错,简直就是个“偏科怪才”。我们的AI大模型就像这个学生,在需要大量数据模式识别和复杂推理的任务中表现卓越,可一旦遇到需要精确、一步步来、环环相扣的基础数学运算,它就彻底歇菜了。

更让人不解的是,无论是只有两层的“小”模型,还是结构复杂、参数庞大的十二层“大”模型,在这种基础乘法题上都无一幸免,集体“翻车”。这表明问题并非出在模型大小上,而是更深层次的根本性缺陷。那么,究竟是什么让AI拥有了“高智商低情商”般的算术能力呢?





忘性大?AI的“长程依赖”困境

其实,核心问题出在AI的“记性”上,或者说,它在处理任务时,无法有效“记住中间步骤”。用专业术语讲,这叫“长程依赖”问题。

回想我们小时候学乘法,比如让你算3876乘以5214。我们是不是得先算3876乘以4,得出第一个部分积,然后记下进位,接着算3876乘以10(其实是乘以1),把第二个部分积写下来,再记住进位,依此类推,直到算出所有部分积。

最后,我们会把这些暂时存放在脑子里或草稿纸上的中间结果,一步步累加起来,才能得出最终的答案。这个“暂存中间信息,并在后续步骤中持续调用”的能力,就是我们人类解决乘法问题的关键,也是“长程依赖”的最好体现。乘法运算环环相扣,每一步的计算都紧密依赖前面的中间结果和进位,漏掉一步,或者记错了任何一个中间值,最终结果就可能谬之千里。



但面对乘法这种需要严格按照逻辑链条一步步推进、精确计算中间结果并持续依赖的任务,光靠“找规律”就彻底抓瞎了。它无法像我们一样,在“脑子”里建立一个临时的“草稿纸”,用来存储和调用这些关键的中间信息。





陷入“局部最优解”的泥潭

更糟糕的是,标准的AI训练方法,还常常会让模型陷入一种“局部最优解”的困境。你可以想象你在爬山,想找这座山的最高峰,结果你爬到一个小土坡,以为那就是山顶了,于是就在这个小土坡上反复打转,再怎么努力,也永远到不了真正的最高峰。

AI也是如此。在训练乘法时,它可能学会了一些“表面规律”,比如某些数字的组合偶尔会对应某个结果,但它并没有掌握乘法背后的真正逻辑。它在这些“小土坡”上反复优化,殊不知,真正的“高峰”需要完全不同的攀登路径,也就是需要一套能够处理中间信息和逻辑依赖的机制。

所以,即便我们把模型做得再大,训练时间再长,只要它的架构上不支持存储和调用中间信息,乘法题它还是算不对。这就像给一个没有“计算器”功能的大脑,塞再多的数据,它也无法完成复杂的计算。





曙光乍现:ICoT与AI的“逻辑复苏”

不过,研究团队并没有止步于发现问题,他们也带来了解决之道!他们开发了一种名为“隐式思维链”(ICoT,Implicit Chain of Thought)的训练方法。用这种方法训练出来的模型,在四位数乘法上的准确率竟然能达到惊人的100%!这简直是奇迹!

为了弄明白ICoT为什么如此有效,团队仔细对比了用ICoT训练的模型和标准模型,就像给AI做了一次深度脑部解剖,结果发现了三个关键性的差异,揭示了AI如何从“算数盲”变身为“数学天才”的秘密。



第一个也是最关键的差异是,ICoT模型竟然“学会了做笔记”!它能清晰地追踪乘法过程中的所有中间信息,比如每一步的部分积、进位数字。研究人员甚至可以从模型的内部状态里,直接“读”出这些关键的中间值,就像从一份整洁的草稿纸上查看步骤一样。

而标准模型呢?这些信息早就混成一团,根本无法辨认。这就像一个学霸做数学题,每一步都写得清清楚楚,而学渣则全靠脑子记,结果脑子一团浆糊,最终答案自然天差地别。ICoT帮助AI重建了记忆的链条,让它不再“忘事”。



这种有条理的分工协作,让信息处理变得高效有序。反观标准模型,它的注意力是混乱的,东看一眼,西记一下,根本无法有效组织和处理信息。



最令人拍案叫绝的,是第三个差异:ICoT模型竟然在训练过程中“无师自通”,自己发明了一套高效的计算工具!它没有把数字仅仅当作是符号,而是把数字编码成了类似波形的模式,并且还使用了一种叫做“闵可夫斯基和”的几何方法来计算乘法。

请注意,这些能力可不是研究人员一行行代码写进去教它的,而是模型在训练过程中,为了解决乘法问题,自己慢慢摸索、涌现出来的!这简直就像AI为了完成任务,自己创造了一套“数学语言”和计算方法,其自主学习和创新的潜力,令人叹为观止。





简单的改动,巨大的飞跃:未来的希望

基于这些突破性的发现,研究团队还给出了一个简单得令人难以置信的修复方案:给标准模型的训练过程,仅仅加一个小小的目标,让它学会追踪每一步的累加总和,把中间值和部分积传递下去。就这么一个看似微不足道的小改动,原本正确率不到1%的双层模型,准确率直接飙升到了99%!

而且,还不用额外教一步步推理的方法。更厉害的是,经过这样训练的模型,甚至自己摸索出了新的计算策略,比如能够同时处理多个数字对的乘法,大大提高了效率。

这说明,有时候解决AI难题,并不需要堆砌更多的数据或更大的模型,而是需要找到那个关键的“引导点”,轻轻拨动一下,就能触发它潜藏的巨大潜能。





告别“野路子”:AI的未来在于逻辑与记忆

或许有人会说,不就是个乘法题吗,犯得着这么较真?但这项研究的意义,远不止让AI会算乘法那么简单。它像一面镜子,照出了整个AI行业的一个深层误区:我们不能盲目地认为模型越大、训练数据越多,AI的能力就一定越强。



牵头这项研究的谭晨浩教授一针见血地指出,现在AI越来越多地参与到关键决策中,所以搞懂它到底是怎么学习、怎么“思考”的,比它能做什么,有时候更重要。这项研究的核心价值在于告诉我们:想让AI真正变强,关键不是一味地堆参数、堆数据,而是要给它正确的“引导”,在架构上支持它的记忆和逻辑能力。

这相当于在提醒我们,AI在数学问题上之所以表现不稳定,是因为它一直用“找规律”这种“野路子”去解决需要严格逻辑推理的问题,就像一个厨师试图用锤子去切菜。未来的AI系统,可能需要把“记忆”和“逻辑运算”这两种能力区分开来,分别给它们提供更专门的支持,才能从根本上解决“能写代码却算不对乘法”的尴尬。

这项研究为AI的发展指明了一个新的方向:与其盲目地追求模型规模的“高大上”,不如先把AI最基础的“记忆和逻辑能力”打磨好。毕竟,一个连基础乘法都搞不定的AI,你让它去处理再复杂的推理任务,里面也可能藏着巨大的隐患。只有打好地基,大厦才能真正稳固。



声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普这棋,下成了死局

特朗普这棋,下成了死局

梳子姐
2026-03-04 10:08:59
美国电网将迎史诗级扩建 中国电网设备出口订单或持续受益

美国电网将迎史诗级扩建 中国电网设备出口订单或持续受益

中国能源网
2026-03-04 10:32:07
中国队时隔多年后再次确认参加土伦杯!多位07后出战,值得期待

中国队时隔多年后再次确认参加土伦杯!多位07后出战,值得期待

振刚说足球
2026-03-04 15:53:57
2026年养老金或再涨,低于3500元涨180,高于6500元涨80可行吗?

2026年养老金或再涨,低于3500元涨180,高于6500元涨80可行吗?

另子维爱读史
2026-03-03 17:49:47
早上十点!徐杰宣布重要决定,萨林杰直接摆烂,杜润旺肚腩遭群嘲

早上十点!徐杰宣布重要决定,萨林杰直接摆烂,杜润旺肚腩遭群嘲

多特体育说
2026-03-04 09:45:45
许世友晚年三次自杀,用毛巾勒脖子,拔掉静脉插管,医生:何苦啊

许世友晚年三次自杀,用毛巾勒脖子,拔掉静脉插管,医生:何苦啊

搜史君
2026-02-25 15:20:07
现货黄金突破5200美元/盎司,日内涨2.21%

现货黄金突破5200美元/盎司,日内涨2.21%

每日经济新闻
2026-03-04 18:26:06
开始抢人,美国一周挖走4名中国顶尖人才,年薪1个亿美元令人咋舌

开始抢人,美国一周挖走4名中国顶尖人才,年薪1个亿美元令人咋舌

离离言几许
2026-03-04 16:27:16
政治不扰足球!美国足协发声:全力支持伊朗征战美加墨世界杯

政治不扰足球!美国足协发声:全力支持伊朗征战美加墨世界杯

夜白侃球
2026-03-04 19:11:07
元宵节已过,全国打工人再出发,原来他们有鄙视链分三六九等…

元宵节已过,全国打工人再出发,原来他们有鄙视链分三六九等…

慧翔百科
2026-03-04 09:04:13
哈梅内伊儿子成为接班人,父母之仇:或将追杀内塔尼亚胡和特朗普

哈梅内伊儿子成为接班人,父母之仇:或将追杀内塔尼亚胡和特朗普

陈博世财经
2026-03-04 16:52:48
特朗普大怒欲断西贸易,话音刚落,西班牙反手一击:立即退出北约

特朗普大怒欲断西贸易,话音刚落,西班牙反手一击:立即退出北约

明天见灌装冰块
2026-03-04 17:30:51
买前白月光,买后真垃圾!这6个家居物品,坑了太多人!

买前白月光,买后真垃圾!这6个家居物品,坑了太多人!

室内设计师有料儿
2026-02-24 15:06:49
“大学女儿非要买LV”视频火了,网友:穷人穿上龙袍也不像太子

“大学女儿非要买LV”视频火了,网友:穷人穿上龙袍也不像太子

妍妍教育日记
2026-02-25 21:18:14
三婚又要离了,他也太渣了!

三婚又要离了,他也太渣了!

背包旅行
2026-03-04 15:11:34
五个孩子一个爹:用试管造娃的华人虎爸,如何培养奥运冠军?

五个孩子一个爹:用试管造娃的华人虎爸,如何培养奥运冠军?

听风听你
2026-03-04 11:05:39
伊朗导弹首次在北约国家上空被击落

伊朗导弹首次在北约国家上空被击落

碳基生物关怀组织
2026-03-04 23:44:31
4号午评:沪指跌破4100点!所有人都注意了,大盘后市或将这样走

4号午评:沪指跌破4100点!所有人都注意了,大盘后市或将这样走

春江财富
2026-03-04 11:56:50
《乘风2026》官宣名单,30人没热搜,没哭戏,没C位争夺战。

《乘风2026》官宣名单,30人没热搜,没哭戏,没C位争夺战。

情感大头说说
2026-03-04 20:09:19
听我一句劝:今年买iPhone17,请直接省下那3000块!

听我一句劝:今年买iPhone17,请直接省下那3000块!

小兔子发现大事情
2026-03-04 03:37:27
2026-03-05 00:27:00
最终你成为了过客
最终你成为了过客
最终你成为了过客
378文章数 197关注度
往期回顾 全部

科技要闻

多位核心离职,阿里亲手废掉最强AI天团?

头条要闻

外媒称伊朗封锁霍尔木兹海峡只让中俄船通行 中方回应

头条要闻

外媒称伊朗封锁霍尔木兹海峡只让中俄船通行 中方回应

体育要闻

2026年中超,为什么值得你多看一眼?

娱乐要闻

谢谢谢娜 贡献出26年内娱的第一个笑话

财经要闻

人大代表建议:将农民养老金提到500元

汽车要闻

鸿蒙智行首款猎装车 尚界Z7/Z7T首发

态度原创

手机
艺术
旅游
公开课
军事航空

手机要闻

华为“双机”再次被确认:畅享90本月发布,Pura X2性能稳了!

艺术要闻

2025“情系塔里木”美术作品展

旅游要闻

临沂:千年古城撒欢夜,这才是中国年最燃的结尾

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗为遭到美以空袭小学遇难者举行葬礼

无障碍浏览 进入关怀版