网易首页 > 网易号 > 正文 申请入驻

研究发现:看似超级智能的大模型,正常训练下连基本乘法都不会

0
分享至



能写复杂代码,能做推理分析,但遇到小学四年级的四位数乘法题就懵了,这就是当下最先进AI大模型的真实写照。听起来像段子,但这是芝加哥大学团队在最新研究中发现的实实在在的问题。

这项发表在arXiv预印本服务器上的研究,由芝加哥大学博士生白晓燕和教授谭晨浩牵头,联合麻省理工、哈佛、滑铁卢大学和谷歌DeepMind的研究者共同完成。他们发现,标准训练方法下,AI模型在两个四位数相乘的任务上准确率不到1%,而且从两层到十二层的模型都一样惨。



这个现象被研究团队称为"崎岖前沿",就是说AI能搞定复杂推理,但在看起来简单的任务上却会翻车。为啥会这样?答案藏在"长程依赖"这个概念里。

为什么标准训练方法会失效

记得小时候学乘法吗?遇到大数相乘,你得记住进位,还得把部分乘积在脑子里"暂存"起来,最后再把它们加在一起。这种需要在过程中存储信息以便后续使用的能力,就叫"长程依赖"。


乘法运算具有长程依赖性,这种依赖性可以通过中间值 cˆ i来捕捉,由此可以推导出解 (c i ) 和进位 (r i )。

标准的大语言模型主要靠识别训练数据里的模式来工作。问题越复杂,模型见过类似情况的概率就越小。那怎么才能让模型不只是背答案,而是真正学会整个计算过程呢,这就是关键所在。

研究团队发现,标准微调方法会让模型陷入"局部最优解"的陷阱。就好比你爬山找最高峰,结果爬到个小山包就以为到顶了,实际上真正的山顶还在更远的地方。模型在没有能够存储和检索中间信息的架构支持下,根本跨不过这道坎,无论你训练多久或者把模型做多大都没用。



但研究者找到了一个成功的案例,一种叫"隐式思维链"(ICoT)的训练方法。用这个方法训练的模型,准确率能达到100%,这就有意思了。为了搞清楚为什么,团队对两种模型进行了深度解剖。

他们发现第一个关键差异:ICoT模型学会了记住重要信息。不像标准模型那样稀里糊涂,ICoT模型能追踪那些长程依赖关系,也就是它一步步整合起来解决问题的中间信息。研究团队通过测试能不能从模型内部状态解码出中间值(比如累计总和)来验证这一点,结果在ICoT模型里可以做到,标准模型里完全不行。

ICoT方法在训练过程中会逐步消除中间推理步骤,强迫模型把推理过程内化到隐藏状态里,而不是依赖显式的逐步标记。这有点像教小孩心算,一开始可以掰手指,慢慢就得在脑子里算了。

第二个发现更精彩:ICoT模型会把注意力组织成随时间演进的不同路径。想象一个井然有序的文件系统,在早期层,模型计算数字对的乘积,并把结果存在特定位置,后续层再精确地检索出计算最终答案每一位数字所需的数值。这形成了一种高效的内部乘法结构,而标准模型里压根就没这玩意。

最让人惊讶的是第三点,ICoT模型内部用了精妙的数学结构来表示运算。它不是简单把数字当符号处理,而是编码成傅里叶基的波形模式,以一种可视化、空间化的方式组织算术运算。在做数字对乘法时,模型用了一种叫闵可夫斯基和的几何运算,这可不是研究人员编程写进去的,而是训练过程中自然涌现出来的。就好像这个成功模型自己发明了一套高效的数学语言来干活。

一个简单的修复方案

既然知道标准微调模型失败是因为缺乏正确指导,那给它提供正确的训练信号不就行了?研究团队引入了一个简单的解决方案:增加一个训练目标,教会模型追踪每一步的累加总和,让模型能把中间值和部分积传递下去。

结果真的奏效了。原本在标准训练下彻底失败的双层模型,加了这一项后准确率直接飙升到99%,而且不需要显式的思维链监督。分析模型的注意力模式后发现,它已经学到了跟ICoT类似的机制,能根据需要存储和检索部分积。更厉害的是,模型还发展出其他策略,包括同时追踪多个数字对的方法。

虽然乘法看起来是个特殊任务,但研究成果揭示了大语言模型如何学习和"思考"的基本原理。长程依赖问题不只出现在算术里,它贯穿于语言建模和其他序列任务。谭教授说:"随着AI越来越多地融入关键决策过程,了解它独特的学习和思维方式至关重要。"

这项研究的核心贡献在于:架构洞察和训练技术能克服单靠扩大规模解决不了的障碍。正确的内置指导,而不仅仅是更多参数或数据,才是推动AI能力发展的关键,研究团队预计未来会开发更通用的方法,来改进那些需要模型跨多个步骤追踪信息的任务。

这个发现也解释了为啥AI大模型在数学上表现总是不太稳定。它们试图用模式匹配来解决需要严格逻辑推理的问题,这本身就是用错了工具。未来的AI系统可能需要更明确地区分记忆和逻辑这两种不同的能力,并在架构上为它们提供不同的支持。

作品声明:仅在头条发布,观点不代表平台立场

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
CBA硬汉!徐杰受伤之后,安慰球迷:下场比赛,我还能打

CBA硬汉!徐杰受伤之后,安慰球迷:下场比赛,我还能打

体育哲人
2026-01-02 12:44:30
凌晨暴走体育西!广州地铁1400万人次刷新纪录

凌晨暴走体育西!广州地铁1400万人次刷新纪录

楼主说楼市
2026-01-01 21:51:42
蓝箭航天相关概念股

蓝箭航天相关概念股

风风顺
2026-01-02 10:35:36
篮协神操作+宫鲁鸣选人引众怒!女篮集训名单大换血

篮协神操作+宫鲁鸣选人引众怒!女篮集训名单大换血

叶赫那拉菲菲
2026-01-01 11:24:36
中方公布:“星链”卫星两次危险抵近,迫使中国空间站紧急规避,严重威胁航天员生命安全;其还被电诈集团大量使用

中方公布:“星链”卫星两次危险抵近,迫使中国空间站紧急规避,严重威胁航天员生命安全;其还被电诈集团大量使用

每日经济新闻
2026-01-01 00:38:04
闫学晶起诉农村低保户赔给她20万,对方2万都赔不起被限制高消费

闫学晶起诉农村低保户赔给她20万,对方2万都赔不起被限制高消费

汉史趣闻
2026-01-01 16:37:38
卖给越南一度电三四毛惹争议

卖给越南一度电三四毛惹争议

辣条叨叨叨
2025-12-29 02:52:56
小玥儿问“你会走吗”,马筱梅没躲,她陪孩子哭也陪孩子想妈妈

小玥儿问“你会走吗”,马筱梅没躲,她陪孩子哭也陪孩子想妈妈

东方不败然多多
2026-01-02 09:37:22
伊朗郑重声明,内政不容干涉

伊朗郑重声明,内政不容干涉

跟着老李看世界
2026-01-02 10:12:23
中国网球新赛季首胜来了!2-1不屈逆转,张帅开门红,重回前80!

中国网球新赛季首胜来了!2-1不屈逆转,张帅开门红,重回前80!

郝小小看体育
2026-01-02 12:10:08
跨年夜加班加点搞空袭:大量目标被击中,乌克兰或又制造个大新闻

跨年夜加班加点搞空袭:大量目标被击中,乌克兰或又制造个大新闻

鹰眼Defence
2026-01-01 18:01:39
北京这一晚,55岁刘奕君秒了41岁向佐,才懂男人刚阳硬朗的魅力

北京这一晚,55岁刘奕君秒了41岁向佐,才懂男人刚阳硬朗的魅力

大铁猫娱乐
2025-12-22 16:14:20
火箭队杜兰特被沃尔夫的离谱投篮击中面部后,当场忍不住吐槽起来

火箭队杜兰特被沃尔夫的离谱投篮击中面部后,当场忍不住吐槽起来

好火子
2026-01-02 11:04:48
那个被全单位孤立的挂职干部,我陪他吃了一年食堂,如今他回来了

那个被全单位孤立的挂职干部,我陪他吃了一年食堂,如今他回来了

星宇共鸣
2025-12-26 09:58:41
与陈思诚离异后,42岁佟丽娅第二次婚姻甜蜜,展现超越前夫的风采

与陈思诚离异后,42岁佟丽娅第二次婚姻甜蜜,展现超越前夫的风采

观察鉴娱
2025-12-31 09:15:04
刚挂普京电话,特朗普通告全球:如果谈判破裂,俄乌接着打下去

刚挂普京电话,特朗普通告全球:如果谈判破裂,俄乌接着打下去

爱吃醋的猫咪
2026-01-01 16:12:20
一脸僵硬,车沟双眼皮,却要演“活泼少女”,网友:真不害臊吗?

一脸僵硬,车沟双眼皮,却要演“活泼少女”,网友:真不害臊吗?

民间平哥
2025-12-30 19:14:44
外甥似舅:12岁乔治王子逐渐显露斯宾塞家族基因,很像戴安娜弟弟

外甥似舅:12岁乔治王子逐渐显露斯宾塞家族基因,很像戴安娜弟弟

毒舌小红帽
2025-12-30 19:16:38
波兰外长闯下大祸,中方罕见声明,欧盟目瞪口呆:这次有大麻烦了

波兰外长闯下大祸,中方罕见声明,欧盟目瞪口呆:这次有大麻烦了

爱意随风起呀
2026-01-02 06:32:00
前女友coco大曝和谢贤的私密事件,89岁的谢贤,还要为风流买单

前女友coco大曝和谢贤的私密事件,89岁的谢贤,还要为风流买单

徐帮阳
2026-01-01 23:32:55
2026-01-02 13:36:49
呼呼历史论
呼呼历史论
分享有趣的历史
279文章数 15928关注度
往期回顾 全部

科技要闻

新势力年榜:零跑险胜华为,蔚来小鹏新高

头条要闻

男子花500万建的别墅被邻居侵占养鸡鸭 邻居:能交租金

头条要闻

男子花500万建的别墅被邻居侵占养鸡鸭 邻居:能交租金

体育要闻

英超离谱夜?4战全平3场0-0 曼城红军翻车

娱乐要闻

武林外传开播20年,郭芙蓉打工期结束

财经要闻

8200亿扩产潮下的锂电供应链之战

汽车要闻

奇瑞汽车12月销量超23万辆 全年超263万辆

态度原创

家居
教育
旅游
时尚
房产

家居要闻

无形有行 自然与灵感诗意

教育要闻

一年级教材意外预测20年后专业前途:短短五个字,让土木专业破防

旅游要闻

平谷雪花季启动吉尼斯雪雕挑战

女人到了60岁也要好好穿衣!冬天认准大衣和羽绒服,舒适大方

房产要闻

封关红利爆发!三亚主城大盘 2.2 万 /㎡起,性价比直接封神!

无障碍浏览 进入关怀版