网易首页 > 网易号 > 正文 申请入驻

DeepMind一篇论文终结十年之争!GPT-5推理靠世界模型

0
分享至


新智元报道

编辑:倾倾

【新智元导读】GPT-5的惊艳之处,不只是写得好,还有超强的推理能力。近期的一个研究揭示了其中的秘密:通用智能体之所以聪明,不是因为参数更大,而是因为它们在脑子里长出了一张「世界模型」。而这张隐形的地图,也正在改变我们对AI的理解。

GPT-5上线后,最让人震惊的不是它能写诗画画,而是它展现出的推理能力。

网友惊呼:「感觉像是在和博士讨论问题」,媒体更是直言它的逻辑水平已经「堪比专家」。

为什么会出现这种「突然开窍」的效果?

最新的一篇研究给出了答案:

通用智能体之所以能推理,不靠死记硬背,而是因为它们在脑子里悄悄长出了一张「世界模型」。


论文传送门:https://arxiv.org/pdf/2506.01622

是模仿还是思考?学界吵了十年

什么是「世界模型」?简单来说,它就是AI脑子里的预测地图。

对于人类来说,我们的脑子里天生带有预测的功能:

球在桌子边滚动→它可能会掉下去

开车的时候,看到红灯→如果不刹车可能出事故

两个人对话,其中一个人说「我饿了」→下一步很可能是找吃的

那对于AI来说,是怎样的呢?

在过去的十几年里,学界一直在争吵——AI到底能不能只靠模仿(无模型学习),也能解决复杂任务?

「模仿派」认为,只要有足够多的数据+强大的算力,AI就能像条件反射一样给出正确答案。

在GPT-3.5时代,大部分AI的回答都像「背题库」,有时候蒙对,有时候完全错误。

与之相反的则是「思考派」。他们坚持如果没有世界模型,AI永远只是鹦鹉学舌。

一旦问题需要多步逻辑,比如解数学习题、规划一个流程,纯模仿型AI就会掉链子。


最近,有一研究给这些争论按下了终止键:

只要一个智能体真的能完成多步、复杂的目标任务,它的策略里必然隐含了世界模型。

在学术框架里,「目标、策略、世界模型」曾经像一个缺角的三角形。

已知世界模型和目标,可以推导出最优策略;已知策略和世界模型,可以反推出目标。


图1 目标g、策略π、世界模型p之间的三角关系

而现在最后一角也被补齐——只要知道智能体的策略和目标,就能恢复出它的世界模型。

这个推导让「世界模型不可或缺」的结论更加稳固。

也就是说,GPT-5之所以能展现出惊人的推理能力,是因为在训练过程中,它体内的「世界模型」。

可以说,没有世界模型,就没有真正的通用智能。

探究AI脑子里的地图

仅有理论还不够,研究团队决定深入检查。

既然说智能体一定会「长出」世界模型,那么我们能否在实验室里,把这张隐形的「地图」抓出来?

给AI搭建的「迷你世界」

为了验证AI体内是否真的存在世界模型,研究团队设计了一个巧妙的实验。

他们搭建了一个虚拟世界,里面只有几个状态(X、Y),它们会按一定概率互相跳转。

然后研究员将任务交给智能体,让它自己摸索。

最后,研究人员尝试只根据智能体的行为,反推出它脑子里是不是已经学会了这些概率。


图2 智能体-环境系统示意图

任务越复杂,误差反而越小

刚开始,智能体在简单目标里乱撞,恢复出来的世界模型差错很多,还有一堆错误。

可当任务变得复杂(比如要先到X,再转到Y),情况就完全不同:它会自动搭建出更精细的「转移概率表」。

随着任务深度增加,误差迅速下降。


图3 任务复杂度vs世界模型误差曲线

无论是训练样本还是任务深度,结果都一边倒——任务越复杂,世界模型越准确。

实验员还尝试了更复杂的目标组合:智能体需要在不同状态之间来回跳转,才能完成目标。


图4 复合目标实验示意图

结果依旧成立。即使任务被拆解得更复杂,它体内的世界模型依然能被稳定恢复出来。

没有世界地图,就没有真正的智能

数学推理也印证了这一点。

实验表明,只要一个智能体在复杂任务里不会频繁犯低级错误,始终能保持有限的「后悔值」,它的策略中就必然已经包含了环境的转移规律。

也就是说——世界模型不是AI的点缀,而是它进化的必需品。

智能体越强,心里的「小九九」就越多。

这就是为什么GPT-5会让人觉得「突然会推理了」,其实是它体内越来越清晰的世界模型。

一张地图带来的希望与隐忧

实验告诉我们:只要AI能完成复杂任务,它的脑子里就一定有一个「世界地图」。

这也解释了近来最热门的现象——所谓的「涌现能力」。

研究表示,这并不是魔法,而是世界模型在任务中逐渐清晰的自然结果。

我们以为GPT-5突然会推理,其实是因为它体内的世界模型在任务中逐渐清晰,于是能力自然显现。

这让人类看到了希望:如果世界模型真的存在,我们或许有机会把它抽离出来,借此理解AI的内心剧场。

未来,当它越来越强时,这可能成为破解黑箱、提升安全性的关键。

但这也埋下了隐忧的种子。

真实世界远比实验室复杂,AI学到的地图也许是模糊不完整的,甚至与人类理解不一致。

可能它觉得安全,而我们觉得危险。

对研究者来说,这也是一个转机。

既然世界模型必然存在,那么我们或许能在未来把它抽取出来,用来解释和验证AI的行为。

这意味着,破解「黑箱」不再只是愿景,而可能有了真正的理论支撑。

所以,GPT-5带来的震惊不只是「它会推理」,更深层的意义在于:AI已经能在脑海里搭建自己的世界地图。

而这张地图,既可能是通向智慧的通行证,也可能是未来不确定性的源头。

参考资料:

https://arxiv.org/abs/2506.01622

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
40年春晚赞助商,40年泼天富贵来时路

40年春晚赞助商,40年泼天富贵来时路

鉴茶院
2026-01-28 08:15:50
深度揭秘 | 封疆大吏罗保铭:贪婪腐化,大办丧事敛财,大搞迷信活动

深度揭秘 | 封疆大吏罗保铭:贪婪腐化,大办丧事敛财,大搞迷信活动

一分为三看人生
2026-02-11 16:18:47
机票价格大跳水,不少人“抄底”,上海最高跌幅超70%!

机票价格大跳水,不少人“抄底”,上海最高跌幅超70%!

环球网资讯
2026-02-18 07:39:13
一场0:2验出申花一个水货外援 乏善可陈还坑苦球队 恐遭斯帅冷落

一场0:2验出申花一个水货外援 乏善可陈还坑苦球队 恐遭斯帅冷落

零度眼看球
2026-02-18 07:48:36
神童张炘炀现状:博士毕业,没有无业啃老,坦言父母不欠他一套房

神童张炘炀现状:博士毕业,没有无业啃老,坦言父母不欠他一套房

阿讯说天下
2026-02-17 11:59:53
44岁前国脚怼网友:看不起送外卖的?人家比你朝九晚五上班挣得多

44岁前国脚怼网友:看不起送外卖的?人家比你朝九晚五上班挣得多

念洲
2026-02-18 09:57:01
一味中药,消囊胜过手术刀,用好了能消除肝囊肿、肾囊肿、卵巢囊肿

一味中药,消囊胜过手术刀,用好了能消除肝囊肿、肾囊肿、卵巢囊肿

环京快爆
2026-02-06 13:46:01
记者:图拉姆完全契合巴萨的中锋需求,转会费不超过7000万欧

记者:图拉姆完全契合巴萨的中锋需求,转会费不超过7000万欧

懂球帝
2026-02-17 17:04:45
1988年四川白岩沟那一战,1516人围攻2名逃兵,打了3天3夜,最后只拖出两具烧焦的黑炭

1988年四川白岩沟那一战,1516人围攻2名逃兵,打了3天3夜,最后只拖出两具烧焦的黑炭

史海孤雁
2026-01-13 23:29:17
美国为何对中国保持克制?你绝对想不到的原因!

美国为何对中国保持克制?你绝对想不到的原因!

枫冷慕诗
2025-12-03 18:25:42
1960年代,许世友想要安徽一个湖,省委书记拍桌子:手伸太长!结局谁也没想到

1960年代,许世友想要安徽一个湖,省委书记拍桌子:手伸太长!结局谁也没想到

源溯历史
2025-12-22 12:14:11
他是安徽省首任省长,用一生告诉我们:信仰就该如岩石,坚不可摧

他是安徽省首任省长,用一生告诉我们:信仰就该如岩石,坚不可摧

阿天爱旅行
2026-02-17 22:21:26
牢A命中,被一窝端16人都是女留学生

牢A命中,被一窝端16人都是女留学生

雪中风车
2026-01-28 13:23:54
96年考上大学向舅舅借1000被拒,全村连夜凑钱,20年后让乡亲落泪

96年考上大学向舅舅借1000被拒,全村连夜凑钱,20年后让乡亲落泪

浩舞默画
2025-10-04 06:40:03
为什么日本在短期旅行中几乎无可挑剔,却在长期生活中让大量外国人逐渐感到压抑与疏离

为什么日本在短期旅行中几乎无可挑剔,却在长期生活中让大量外国人逐渐感到压抑与疏离

日本物语
2026-01-13 20:41:39
“我舍不得吃,你们凭什么送给外人”!评论区撕开父母穷大方的一面

“我舍不得吃,你们凭什么送给外人”!评论区撕开父母穷大方的一面

素十三儿
2026-02-16 12:35:05
凭啥说诺维斯基这一冠含金量历史最高 小牛和对手阵容差距有多大

凭啥说诺维斯基这一冠含金量历史最高 小牛和对手阵容差距有多大

篮球小烟花
2026-01-25 08:00:02
春节档6部华语电影血拼,第一波口碑来了,榜首出乎意料

春节档6部华语电影血拼,第一波口碑来了,榜首出乎意料

小Q侃电影
2026-02-18 12:51:30
王毅警告日本后,新加坡对日态度大变,高市突然给全体华人拜年

王毅警告日本后,新加坡对日态度大变,高市突然给全体华人拜年

东极妙严
2026-02-17 09:08:55
回顾:上海杀妻案朱晓东被处死刑,狱中对妻子的评价,让人胆寒

回顾:上海杀妻案朱晓东被处死刑,狱中对妻子的评价,让人胆寒

谈史论天地
2026-02-11 13:30:11
2026-02-18 13:55:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14549文章数 66630关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

牛弹琴:特朗普宣布一个大消息 日本要当"冤大头"了

头条要闻

牛弹琴:特朗普宣布一个大消息 日本要当"冤大头"了

体育要闻

维尼修斯进球后罢赛 向穆帅投诉对手歧视

娱乐要闻

6大卫视春晚收视出炉 北京台稳居第一

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

数码
家居
旅游
公开课
军事航空

数码要闻

苹果秘密研发清单流出:第三代HomePod扬声器和紧凑型室内传感器

家居要闻

中古雅韵 乐韵伴日常

旅游要闻

登高祈福、庙会添彩、打卡阳光……“文旅新亮点+消费新热点”释放假日经济活力

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国国务卿鲁比奥发表农历新年祝福

无障碍浏览 进入关怀版