网易首页 > 网易号 > 正文 申请入驻

AI能写代码却算不对小学乘法,大模型缺陷曝光

0
分享至

哈喽,大家好,我是小今。这篇来聊聊AI的奇怪反差:能写复杂代码却算不对小学乘法?这背后藏着大模型的致命短板!你敢信?

能帮程序员写复杂代码、给研究员做逻辑推理的顶尖AI大模型,面对小学四年级水平的四位数乘法题,正确率居然不到1%?这不是网上的搞笑段子,而是芝加哥大学牵头的科研团队实打实的研究发现,连麻省理工、哈佛的研究者还有谷歌DeepMind的专家都参与了这项研究,成果已经发布在arXiv预印本服务器上。





“偏科”AI的怪象:崎岖的前沿

研究团队把这种奇特的现象叫做“崎岖前沿”,特别形象。你可以想象一个学生,奥数题能拿国际金牌,但简单的加减乘除却频频出错,简直就是个“偏科怪才”。我们的AI大模型就像这个学生,在需要大量数据模式识别和复杂推理的任务中表现卓越,可一旦遇到需要精确、一步步来、环环相扣的基础数学运算,它就彻底歇菜了。

更让人不解的是,无论是只有两层的“小”模型,还是结构复杂、参数庞大的十二层“大”模型,在这种基础乘法题上都无一幸免,集体“翻车”。这表明问题并非出在模型大小上,而是更深层次的根本性缺陷。那么,究竟是什么让AI拥有了“高智商低情商”般的算术能力呢?





忘性大?AI的“长程依赖”困境

其实,核心问题出在AI的“记性”上,或者说,它在处理任务时,无法有效“记住中间步骤”。用专业术语讲,这叫“长程依赖”问题。

回想我们小时候学乘法,比如让你算3876乘以5214。我们是不是得先算3876乘以4,得出第一个部分积,然后记下进位,接着算3876乘以10(其实是乘以1),把第二个部分积写下来,再记住进位,依此类推,直到算出所有部分积。

最后,我们会把这些暂时存放在脑子里或草稿纸上的中间结果,一步步累加起来,才能得出最终的答案。这个“暂存中间信息,并在后续步骤中持续调用”的能力,就是我们人类解决乘法问题的关键,也是“长程依赖”的最好体现。乘法运算环环相扣,每一步的计算都紧密依赖前面的中间结果和进位,漏掉一步,或者记错了任何一个中间值,最终结果就可能谬之千里。



但面对乘法这种需要严格按照逻辑链条一步步推进、精确计算中间结果并持续依赖的任务,光靠“找规律”就彻底抓瞎了。它无法像我们一样,在“脑子”里建立一个临时的“草稿纸”,用来存储和调用这些关键的中间信息。





陷入“局部最优解”的泥潭

更糟糕的是,标准的AI训练方法,还常常会让模型陷入一种“局部最优解”的困境。你可以想象你在爬山,想找这座山的最高峰,结果你爬到一个小土坡,以为那就是山顶了,于是就在这个小土坡上反复打转,再怎么努力,也永远到不了真正的最高峰。

AI也是如此。在训练乘法时,它可能学会了一些“表面规律”,比如某些数字的组合偶尔会对应某个结果,但它并没有掌握乘法背后的真正逻辑。它在这些“小土坡”上反复优化,殊不知,真正的“高峰”需要完全不同的攀登路径,也就是需要一套能够处理中间信息和逻辑依赖的机制。

所以,即便我们把模型做得再大,训练时间再长,只要它的架构上不支持存储和调用中间信息,乘法题它还是算不对。这就像给一个没有“计算器”功能的大脑,塞再多的数据,它也无法完成复杂的计算。





曙光乍现:ICoT与AI的“逻辑复苏”

不过,研究团队并没有止步于发现问题,他们也带来了解决之道!他们开发了一种名为“隐式思维链”(ICoT,Implicit Chain of Thought)的训练方法。用这种方法训练出来的模型,在四位数乘法上的准确率竟然能达到惊人的100%!这简直是奇迹!

为了弄明白ICoT为什么如此有效,团队仔细对比了用ICoT训练的模型和标准模型,就像给AI做了一次深度脑部解剖,结果发现了三个关键性的差异,揭示了AI如何从“算数盲”变身为“数学天才”的秘密。



第一个也是最关键的差异是,ICoT模型竟然“学会了做笔记”!它能清晰地追踪乘法过程中的所有中间信息,比如每一步的部分积、进位数字。研究人员甚至可以从模型的内部状态里,直接“读”出这些关键的中间值,就像从一份整洁的草稿纸上查看步骤一样。

而标准模型呢?这些信息早就混成一团,根本无法辨认。这就像一个学霸做数学题,每一步都写得清清楚楚,而学渣则全靠脑子记,结果脑子一团浆糊,最终答案自然天差地别。ICoT帮助AI重建了记忆的链条,让它不再“忘事”。



这种有条理的分工协作,让信息处理变得高效有序。反观标准模型,它的注意力是混乱的,东看一眼,西记一下,根本无法有效组织和处理信息。



最令人拍案叫绝的,是第三个差异:ICoT模型竟然在训练过程中“无师自通”,自己发明了一套高效的计算工具!它没有把数字仅仅当作是符号,而是把数字编码成了类似波形的模式,并且还使用了一种叫做“闵可夫斯基和”的几何方法来计算乘法。

请注意,这些能力可不是研究人员一行行代码写进去教它的,而是模型在训练过程中,为了解决乘法问题,自己慢慢摸索、涌现出来的!这简直就像AI为了完成任务,自己创造了一套“数学语言”和计算方法,其自主学习和创新的潜力,令人叹为观止。





简单的改动,巨大的飞跃:未来的希望

基于这些突破性的发现,研究团队还给出了一个简单得令人难以置信的修复方案:给标准模型的训练过程,仅仅加一个小小的目标,让它学会追踪每一步的累加总和,把中间值和部分积传递下去。就这么一个看似微不足道的小改动,原本正确率不到1%的双层模型,准确率直接飙升到了99%!

而且,还不用额外教一步步推理的方法。更厉害的是,经过这样训练的模型,甚至自己摸索出了新的计算策略,比如能够同时处理多个数字对的乘法,大大提高了效率。

这说明,有时候解决AI难题,并不需要堆砌更多的数据或更大的模型,而是需要找到那个关键的“引导点”,轻轻拨动一下,就能触发它潜藏的巨大潜能。





告别“野路子”:AI的未来在于逻辑与记忆

或许有人会说,不就是个乘法题吗,犯得着这么较真?但这项研究的意义,远不止让AI会算乘法那么简单。它像一面镜子,照出了整个AI行业的一个深层误区:我们不能盲目地认为模型越大、训练数据越多,AI的能力就一定越强。



牵头这项研究的谭晨浩教授一针见血地指出,现在AI越来越多地参与到关键决策中,所以搞懂它到底是怎么学习、怎么“思考”的,比它能做什么,有时候更重要。这项研究的核心价值在于告诉我们:想让AI真正变强,关键不是一味地堆参数、堆数据,而是要给它正确的“引导”,在架构上支持它的记忆和逻辑能力。

这相当于在提醒我们,AI在数学问题上之所以表现不稳定,是因为它一直用“找规律”这种“野路子”去解决需要严格逻辑推理的问题,就像一个厨师试图用锤子去切菜。未来的AI系统,可能需要把“记忆”和“逻辑运算”这两种能力区分开来,分别给它们提供更专门的支持,才能从根本上解决“能写代码却算不对乘法”的尴尬。

这项研究为AI的发展指明了一个新的方向:与其盲目地追求模型规模的“高大上”,不如先把AI最基础的“记忆和逻辑能力”打磨好。毕竟,一个连基础乘法都搞不定的AI,你让它去处理再复杂的推理任务,里面也可能藏着巨大的隐患。只有打好地基,大厦才能真正稳固。



声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
发现一个奇怪现象:喜欢把家里打扫得很干净的人,往往会有这3种命运,并非迷信

发现一个奇怪现象:喜欢把家里打扫得很干净的人,往往会有这3种命运,并非迷信

LULU生活家
2025-12-23 18:33:20
郑州出台新条例,3月1日起施行

郑州出台新条例,3月1日起施行

大象新闻
2026-01-08 10:33:05
美刊:052D型驱逐舰总数可能突破50艘,距世界第一仅差几艘

美刊:052D型驱逐舰总数可能突破50艘,距世界第一仅差几艘

陶慕剑地球观察
2026-01-05 20:45:32
明日吉林省部分地区将迎大到暴雪

明日吉林省部分地区将迎大到暴雪

环球网资讯
2026-01-08 16:31:23
香港风月片演员下嫁农村小伙后续:已怀孕备产,男方不介意吃软饭

香港风月片演员下嫁农村小伙后续:已怀孕备产,男方不介意吃软饭

一盅情怀
2025-12-25 19:09:05
技校到底有多乱?技校班主任普遍要求班里男的不死、女的不生?

技校到底有多乱?技校班主任普遍要求班里男的不死、女的不生?

削桐作琴
2025-12-12 23:09:05
多哈冠军赛没人看,观众仅3人?现场图片曝光,莎头又“背锅”?

多哈冠军赛没人看,观众仅3人?现场图片曝光,莎头又“背锅”?

体育就你秀
2026-01-08 11:10:53
白宫直说了:拿下格陵兰岛,不惜动武

白宫直说了:拿下格陵兰岛,不惜动武

观察者网
2026-01-07 08:15:10
16次出价、96.6万元成交!成都一特殊房源被一女性买家拍下,准备自住

16次出价、96.6万元成交!成都一特殊房源被一女性买家拍下,准备自住

爱看头条
2026-01-08 09:39:05
能打爆广东队?辽宁“新王炸”确认到位,杨鸣为他放弃布朗!

能打爆广东队?辽宁“新王炸”确认到位,杨鸣为他放弃布朗!

绯雨儿
2026-01-08 16:19:44
已低调回国,满脸憔悴现身高档商场,风评尽毁的许亚军还能翻盘吗

已低调回国,满脸憔悴现身高档商场,风评尽毁的许亚军还能翻盘吗

乐悠悠娱乐
2025-12-31 10:36:57
郑钦文宣布:退出2026年澳网 经评估未达到100%战斗状态

郑钦文宣布:退出2026年澳网 经评估未达到100%战斗状态

醉卧浮生
2026-01-08 15:56:12
比整容还离谱!39岁江疏影露面,脸僵似硅胶,丑到认不出令人唏嘘

比整容还离谱!39岁江疏影露面,脸僵似硅胶,丑到认不出令人唏嘘

艳儿说电影
2025-11-25 11:19:50
洪秀柱一针见血:大陆高层老一辈不忍动武,但大陆政府也在年轻化

洪秀柱一针见血:大陆高层老一辈不忍动武,但大陆政府也在年轻化

兴史兴谈
2025-12-24 14:16:30
面对解放军的台海大演习,懂王轻描淡写的评价,说出了内心的无奈

面对解放军的台海大演习,懂王轻描淡写的评价,说出了内心的无奈

浩洋真知
2026-01-07 15:09:56
日本对华下狠手,拉黑110家中企!转头被中国光刻机反手一击:首台国产机交付

日本对华下狠手,拉黑110家中企!转头被中国光刻机反手一击:首台国产机交付

白梦日记
2025-11-20 21:31:26
从高处跌落的硅胶脸夫人:被拘4个月瘦到80斤,头发花白眼神惊恐

从高处跌落的硅胶脸夫人:被拘4个月瘦到80斤,头发花白眼神惊恐

照见古今
2025-12-12 18:19:05
CBA榜首再换!上海广东争第1!北京跌出前4,山东仅排第12

CBA榜首再换!上海广东争第1!北京跌出前4,山东仅排第12

老吴说体育
2026-01-08 00:18:12
当着俄军潜艇的面抢船!美军公海骑脸输出,普京的面子碎了一地

当着俄军潜艇的面抢船!美军公海骑脸输出,普京的面子碎了一地

大国知识局
2026-01-08 13:00:41
谁教会了毛泽东打仗?毛泽东认为有3个“老师”,第一个是蒋介石

谁教会了毛泽东打仗?毛泽东认为有3个“老师”,第一个是蒋介石

浩舞默画
2026-01-07 09:47:10
2026-01-09 03:31:00
最终你成为了过客
最终你成为了过客
最终你成为了过客
160文章数 187关注度
往期回顾 全部

科技要闻

智谱拿下“全球大模型第一股”,凭什么

头条要闻

采用俄罗斯的防空系统 委内瑞拉防空体系因何失效

头条要闻

采用俄罗斯的防空系统 委内瑞拉防空体系因何失效

体育要闻

世乒赛银牌得主,说自己梦里都是孙颖莎

娱乐要闻

抗战剧《马背摇篮》首播,获观众好评

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

从量变到"智"变 吉利在CES打出了五张牌

态度原创

时尚
旅游
亲子
艺术
数码

珍珠专场|| 无论18岁还是80岁,总是会为它再一次心动

旅游要闻

京城里的小众博物馆

亲子要闻

家长注意了!这7件事别再孩子面前做!

艺术要闻

震撼!阿森西奥的人体绘画揭示情感的深渊!

数码要闻

CES 2026 | TCL实业携全球首创SQD-Mini LED显示技术亮相

无障碍浏览 进入关怀版