网易首页 > 网易号 > 正文 申请入驻

研究发现:看似超级智能的大模型,正常训练下连基本乘法都不会

0
分享至



AI能写复杂代码、做逻辑推理,却搞不定小学四年级的四位数乘法。

这事听着像段子,却是真实存在的研究发现。

芝加哥大学有个团队做了项研究,牵头的是博士生白晓燕和教授谭晨浩,还联合了麻省理工、哈佛这些名校以及谷歌DeepMind的研究者,他们的成果发在了arXiv预印本服务器上。



谁能想到最先进的AI会栽在这种基础算术上。

团队测试了不同层数的模型,从两层到十二层,结果都一样惨,四位数相乘的正确率低得可怜。

这种“能搞定复杂推理,却在简单任务上翻车”的现象,被研究团队命名为“崎岖前沿”。

本来想,是不是模型层数不够、训练数据太少?但测试下来发现不是这么回事。



哪怕把模型做得更大、训练时间拉得更长,准确率还是上不去。

这就有意思了,AI处理代码编写、数据分析这种高难度任务时游刃有余,怎么偏偏在乘法这种人类小学生都能掌握的技能上掉链子?

后来才明白,问题的关键不在任务难度高低,而在任务本身的特性。

咱们人类做四位数乘法时,得记住进位,还得把中间算出来的部分积暂时存着,最后再汇总相加。



这种需要暂存中间信息并用到后续步骤里的能力,学术上叫“长程依赖”。

AI搞不定乘法,核心就是缺了这方面的能力。

标准的大语言模型,本质上是靠识别训练数据里的模式来工作的。

复杂任务虽然难,但可能存在更多可复用的模式,可四位数乘法的组合太多了,模型根本没法靠记忆覆盖所有情况。



更麻烦的是,标准的微调方法会让模型陷入“局部最优解”的陷阱。

打个比方,这就像爬山找最高峰,模型爬到一个小山包就以为到顶了,压根不知道真正的山顶还在更远的地方。

没有能存储和检索中间信息的架构支持,再怎么训练都是白费功夫。

这一点挺颠覆认知的,以前大家总觉得“模型越大、参数越多,能力就越强”,现在看来并非如此。



长程依赖问题也不是只出现在乘法里。

如此看来,这个问题其实是大模型的共性短板,只是在乘法这种需要精准分步计算的任务上,暴露得更明显而已。

就在大家觉得没办法的时候,研究团队发现了一个成功案例,用“隐式思维链”训练的模型,做四位数乘法的准确率居然能达到百分之百。



我特意去了解了下这种训练方法,它不是让模型一步出答案,而是强迫模型把推理过程内化到自身的隐藏状态里,不用依赖显式的分步标记。

这有点像教小孩心算,一开始可以掰手指、写草稿,慢慢就得在脑子里完成整个过程。

研究团队解剖这两种模型后发现,用隐式思维链训练的模型,首先学会了记住重要的中间信息,从它的内部状态里能解码出累计总和这些关键数据,标准模型却完全做不到。

更让人惊讶的是,这种模型还会自己组织注意力路径。



早期的网络层负责计算数字对的乘积并存储,后续层再精准检索需要的数值,形成了一套高效的内部运算结构。

甚至,它还自发形成了精妙的数学结构,用傅里叶基的波形模式编码数字,通过闵可夫斯基和这种几何运算来处理乘法,这些都不是研究人员编程写进去的。

基于这个发现,团队还给出了一个简单的解决方案:在标准训练里加一个目标,让模型学会追踪每一步的累加总和。

没想到效果立竿见影,原本彻底失败的双层模型,准确率一下子就提了上来,还自己学会了类似的存储检索机制。



毫无疑问,这项研究的价值远不止让AI学会乘法。它揭示了大模型学习和思考的基本原理,证明了正确的训练引导和架构设计,比单纯堆参数、堆数据更重要。

这也解释了为啥AI在数学上的表现总不稳定,用模式匹配的思路去解决需要严格逻辑推理的问题,本身就是用错了工具。

未来的AI要想真正走向“智能”,可能需要明确区分记忆和逻辑这两种能力,在架构上给它们提供针对性的支持。

随着AI越来越多地融入关键决策过程,搞清楚它的学习规律,找到正确的提升方向,远比追求参数规模的堆砌更有意义。



声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
少妇玉米地被奸杀,强奸部位及其变态

少妇玉米地被奸杀,强奸部位及其变态

衍月
2025-12-24 10:39:53
日本访华被拒,李在明当着全世界的面喊出一句话,让高市早苗破防

日本访华被拒,李在明当着全世界的面喊出一句话,让高市早苗破防

博览历史
2026-01-05 18:37:01
网友称浙江金华一“雪乡”景点用棉花、白沙装饰,景区:票价几十元,有布景和造雪区

网友称浙江金华一“雪乡”景点用棉花、白沙装饰,景区:票价几十元,有布景和造雪区

潇湘晨报
2026-01-06 18:04:23
38岁男子元旦夜在跨海大桥弃车失踪 因妻子让其睡前洗脚拌嘴离家

38岁男子元旦夜在跨海大桥弃车失踪 因妻子让其睡前洗脚拌嘴离家

闪电新闻
2026-01-06 14:58:10
总局公示四位马拉松女将获国际健将,张水华“走错考场”无缘认证

总局公示四位马拉松女将获国际健将,张水华“走错考场”无缘认证

杨华评论
2026-01-06 17:42:06
船要沉了,和上错了船的人无关

船要沉了,和上错了船的人无关

求实处
2026-01-05 20:25:37
Claude Code最强开源对手!GitHub 50.2k Star了,作者为它烧掉2.4w美元。

Claude Code最强开源对手!GitHub 50.2k Star了,作者为它烧掉2.4w美元。

袋鼠帝
2026-01-06 18:00:31
马筱梅挺孕肚挑礼服依然甜美!连换3套礼服,秀孕肚,心情格外好

马筱梅挺孕肚挑礼服依然甜美!连换3套礼服,秀孕肚,心情格外好

明星私服穿搭daily
2026-01-07 07:31:05
伊朗有大事要发生: 至少29名抗议者被杀、88个城市被点燃

伊朗有大事要发生: 至少29名抗议者被杀、88个城市被点燃

一种观点
2026-01-06 09:46:56
紫牛头条|野生小鸟被困南京奥体中心游泳馆近一年 记者探访:在泳客投喂下“安家”,去留引热议

紫牛头条|野生小鸟被困南京奥体中心游泳馆近一年 记者探访:在泳客投喂下“安家”,去留引热议

扬子晚报
2026-01-06 07:14:20
中东国家都意识到了:就算中国高端武器再多,也没办法保护他们

中东国家都意识到了:就算中国高端武器再多,也没办法保护他们

肖兹探秘说
2026-01-01 20:16:34
从7人到年产值40亿!闵行诞生“隐形冠军”,特斯拉、蔚来、大众都是它的客户

从7人到年产值40亿!闵行诞生“隐形冠军”,特斯拉、蔚来、大众都是它的客户

上海闵行
2026-01-06 07:09:02
中美军事实力有多大差距?张召忠:我可以负责任地讲,别再被误导

中美军事实力有多大差距?张召忠:我可以负责任地讲,别再被误导

混沌录
2025-05-12 18:38:14
全国“公安楷模”、北京市公安局原副局长董亦军同志先进事迹报告会举行

全国“公安楷模”、北京市公安局原副局长董亦军同志先进事迹报告会举行

北青网-北京青年报
2026-01-06 19:51:10
美国防部:至少7名美军在委内瑞拉行动中受伤

美国防部:至少7名美军在委内瑞拉行动中受伤

界面新闻
2026-01-07 07:18:10
马杜罗夫妇在美首次出庭,表示不认罪!马杜罗3月17日将再次出庭!联合国:“严峻时刻”

马杜罗夫妇在美首次出庭,表示不认罪!马杜罗3月17日将再次出庭!联合国:“严峻时刻”

每日经济新闻
2026-01-06 06:35:53
景甜翻遍手机相册,发了点你没见过的美照,每张都是满满的回忆!

景甜翻遍手机相册,发了点你没见过的美照,每张都是满满的回忆!

去山野间追风
2026-01-07 07:45:38
建议大家:假如工资允许,咬咬牙添置“这5样”,幸福感加倍提升

建议大家:假如工资允许,咬咬牙添置“这5样”,幸福感加倍提升

家居设计师苏哥
2025-12-29 13:46:17
美国不敢对中国开战?英国学者一语道破:中国不止核武器一个底牌

美国不敢对中国开战?英国学者一语道破:中国不止核武器一个底牌

谛听骨语本尊
2025-11-30 16:05:50
十三连阳后,商业航天突发利空,存储芯片要接力

十三连阳后,商业航天突发利空,存储芯片要接力

涨停王者
2026-01-07 07:15:38
2026-01-07 09:03:00
装满幸福
装满幸福
感谢关注
171文章数 43关注度
往期回顾 全部

科技要闻

马斯克杀疯了!xAI官宣200亿美元融资

头条要闻

河北农村居民:"煤改气"后 160平空间燃气费最少8千元

头条要闻

河北农村居民:"煤改气"后 160平空间燃气费最少8千元

体育要闻

从NBA最菜首发控卫,到NBA最强乔治

娱乐要闻

2026年央视春晚彩排照曝光!

财经要闻

茅台为何要和分销商彻底说拜拜?

汽车要闻

摩登出街潮品 实拍奇瑞QQ冰淇淋女王版

态度原创

教育
艺术
数码
健康
游戏

教育要闻

二次函数应用题,一个视频学会!

艺术要闻

你也在学书法?先楷后行的秘密曝光!

数码要闻

CES 2026:未岚大陆以“Navimow 标准”定义智能割草机器人新标杆

这些新疗法,让化疗不再那么痛苦

陶德对《辐射4》最令人印象深刻的Mod毫无兴趣

无障碍浏览 进入关怀版