网易首页 > 网易号 > 正文 申请入驻

腾讯武大联手打造“会思考的AI”:像人一样学游戏,决策全透明

0
分享至

2025年9月,腾讯与武汉大学的联合研究团队(由腾讯王赛、徐中文及武大吴宇领衔)发表了一项颠覆性成果——名为“Cogito, ergo ludo”(简称 CEL,意为 “我思故我玩”)的AI智能体。不同于只会“死记硬背” 的传统AI,它能像人一样观察、思考、总结规律,甚至清晰说出决策逻辑,相关论文可通过编号arXiv:2509.25052v1查询。

想象你第一次玩新游戏:先摸索规则,再积累经验,最后制定策略。CEL正是这样的 “智能玩家”。传统AI学下棋要看完百万局棋谱,靠调整参数形成条件反射,就像不会理解逻辑的表演海豚;而CEL的决策全程透明,就像身边的游戏高手会告诉你 “为什么这么走”。



一、从 “背答案” 到 “想问题”:AI的学习革命

传统AI的痛点很明显:它是个“黑箱学霸”。要让它学会游戏,得喂给它海量数据反复训练,但你问它“为什么选这个方案”,它只会答“我背过”。这种不透明性,让医疗、自动驾驶等关键领域不敢轻易信任AI。

CEL彻底改变了学习逻辑,分成“游戏中思考”和“游戏后反思”两步:

  • 决策时前瞻:像棋手算棋一样,先评估当前局面,预测每个动作的后果,再选最优解,全程可追溯思考路径;
  • 结束后复盘:好比考完试整理错题本,回顾全程对错,更新对规则的理解和策略库。这种 “边玩边想边进步” 的模式,让它能快速吃透新游戏。



二、AI的“智囊团”:四个“专家”协同工作

CEL 的“大脑” 由四个各司其职的 “专家” 组成,像高效协作的团队:

  1. 规则理解专家:靠观察猜规则,就像小孩看别人下棋悟玩法,还能用自然语言写出“游戏说明书”;
  2. 结果预测专家:模拟行动后果,比如 “走这步会触发陷阱吗”,堪比棋手脑中的 “沙盘推演”;
  3. 局面评估专家:给当前状态打分,判断“赢面有多大”,帮团队筛选方向;
  4. 策略总结专家:攒“游戏攻略”,比如 “扫雷先开角落”“推箱子别堵死路”,还会随经验更新。

决策时,评估专家先定基调,预测专家模拟后果,策略专家给建议,最终选出最优解;游戏结束后,规则专家和策略专家更新知识库,为下一局做准备。



三、三重考验:从零学起的游戏实战

研究团队选了三种经典游戏“考”CEL,而且故意加了难度:开局完全不教规则,只给基础操作,还得等游戏结束才知道“输还是赢”,堪比蒙眼摸路。

  • 扫雷(逻辑推理题):靠数字线索猜地雷位置,考验严密思维;
  • 冰湖导航(路径规划题):从起点到终点避陷阱,需要空间判断;
  • 推箱子(工程规划题):要把箱子推到目标点,还不能推到死角,得提前想好几步操作。

四、成绩惊艳:比 “知规则” 的AI更会玩

CEL的表现打破了预期:

  • 扫雷胜率54%:远超提前被告知完整规则的AI(仅26%),证明自主领悟比 “喂答案”更有效;
  • 冰湖导航10局通关:短短10回合胜率就达97%,学习速度接近人类;
  • 推箱子“顿悟时刻”:摸索一段时间后,胜率突然飙升到84%,像人突然 “想通了诀窍”。

更厉害的是它的“举一反三”能力:用扫雷训练的CEL去玩冰湖导航,虽然不懂新规则,却能快速上手。这说明它学会的不是“某款游戏技巧”,而是“怎么学新游戏” 的通用能力。

五、看得见的思考:AI 的“决策日记”

CEL最圈粉的是“透明”。玩扫雷时,它会“说”出思考过程:

“现在只剩一个安全格要开,价值很高。位置 (0,3) 是安全的——旁边 (1,2) 是1、(1,3) 是2,说明 (0,2) 和 (0,3) 里有一个地雷,但 (0,2) 已经确定是雷,所以 (0,3) 肯定安全,开它就能赢。而 (0,2) 是雷,开了就输。”

它还能自己写 “游戏手册”,比如扫雷规则被总结得一清二楚:“‘.’是未开格子,‘0’是无雷安全格,‘n’表示周围有n个雷,‘*’是雷(踩了游戏结束)”。连 “用数字推地雷位置”“优先开安全格” 等高级策略,都是它自己悟出来的。



六、不止于游戏:AI的未来方向

CEL的突破,远不止 “游戏打得好”:

  • 迈向通用AI:传统AI是“专才”,下象棋的不会下围棋;CEL的跨游戏学习能力,暗示未来AI可能成为“通才”;
  • 解决信任难题:就像医疗领域需要可解释的AI诊断依据,CEL的透明性让人类能 “看懂” AI决策,为关键领域应用铺路;
  • 技术融合创新:它结合了大语言模型的推理能力和强化学习的试错机制,还用 GRPO技术像老师改作业一样优化推理模式。

未来,它可能成为:

  • 教育领域的“私教”:展示解题思路,帮学生学会 “怎么想”;
  • 科研领域的“助手”:分析实验数据、提假设,还能说清推理过程;
  • 商业领域的“顾问”:给决策建议时附上依据,帮管理者拍板。

当然挑战还在:目前它只玩转简单游戏,现实世界的复杂场景更难应对;如何确保智能AI符合人类价值观,也需要持续探索。但不可否认,CEL让“会思考的AI” 从概念落地,未来我们可能不再需要盲目信任“黑箱”,而是与透明、理性的AI伙伴协作。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
巴媒:安切洛蒂周日在里约热内卢参加狂欢节,由罗纳尔多陪同

巴媒:安切洛蒂周日在里约热内卢参加狂欢节,由罗纳尔多陪同

砚底沉香
2026-02-16 11:57:07
攻势凌厉,打法凶悍,乌军王者归来,6天收复南线近200平方公里

攻势凌厉,打法凶悍,乌军王者归来,6天收复南线近200平方公里

史政先锋
2026-02-15 19:29:47
马科斯喊停已经迟了!即日起十几名菲律宾参议员禁止入境

马科斯喊停已经迟了!即日起十几名菲律宾参议员禁止入境

二大爷观世界
2026-02-15 23:13:53
1900年,八国联军把“黄莲圣母”当成玩物,凌辱后运往欧洲展览?

1900年,八国联军把“黄莲圣母”当成玩物,凌辱后运往欧洲展览?

谈史论天地
2026-02-08 12:00:10
中国空军从俄乌冲突中吸取经验:歼20决不能再打火箭弹了!

中国空军从俄乌冲突中吸取经验:歼20决不能再打火箭弹了!

掉了颗大白兔糖
2026-02-15 15:00:15
男女双方能不能成为情人关系,主要是由谁决定的?

男女双方能不能成为情人关系,主要是由谁决定的?

加油丁小文
2026-02-16 11:34:47
季乐:退役后竟然当交警,曾拿3次CBA总冠军,妻子是宏远啦啦队长

季乐:退役后竟然当交警,曾拿3次CBA总冠军,妻子是宏远啦啦队长

查尔菲的笔记
2026-01-20 00:58:24
蜜雪冰城墨西哥首店开业,民众排队数小时购买,当地华人:比其他奶茶便宜很多,柠檬水8元一杯,口感和国内一样

蜜雪冰城墨西哥首店开业,民众排队数小时购买,当地华人:比其他奶茶便宜很多,柠檬水8元一杯,口感和国内一样

极目新闻
2026-02-13 17:51:18
“港独分子”陈方安生,如今已活成了一个“笑话”?善恶终有报!

“港独分子”陈方安生,如今已活成了一个“笑话”?善恶终有报!

凉羽亭
2025-12-29 19:37:55
林肯汽车,还能挺过明年吗?

林肯汽车,还能挺过明年吗?

汽车K线
2026-02-14 09:16:15
笑死!到底是谁教老年人网购的?网友:什么都敢买!

笑死!到底是谁教老年人网购的?网友:什么都敢买!

另子维爱读史
2025-12-19 16:21:52
正面回怼奇葩亲戚是啥体验?网友:我家里人也说我说话太厉害了

正面回怼奇葩亲戚是啥体验?网友:我家里人也说我说话太厉害了

解读热点事件
2026-02-06 00:51:21
上将之子堕落腐化,总政治部派出一中将,为其他高干子弟敲响警钟

上将之子堕落腐化,总政治部派出一中将,为其他高干子弟敲响警钟

芊芊子吟
2026-02-15 21:00:03
2100枚核弹24小时待命,张召忠曾发出警告:一旦开战,将无处可逃

2100枚核弹24小时待命,张召忠曾发出警告:一旦开战,将无处可逃

近史博览
2026-01-22 12:52:47
广东飞踹老人案后续:严惩不贷!主犯刑拘,帮凶也受到处罚

广东飞踹老人案后续:严惩不贷!主犯刑拘,帮凶也受到处罚

时光在作祟
2026-02-15 22:35:31
35岁教授辞铁饭碗收废电池,20年狂赚400亿,如今车企抢着送钱

35岁教授辞铁饭碗收废电池,20年狂赚400亿,如今车企抢着送钱

青眼财经
2026-01-21 22:47:48
“我们别无选择”:泽伦斯基慕尼黑演讲2026

“我们别无选择”:泽伦斯基慕尼黑演讲2026

书生论剑
2026-02-15 12:13:22
B费休假回葡萄牙现场观看葡甲联赛,为好友加油助威

B费休假回葡萄牙现场观看葡甲联赛,为好友加油助威

懂球帝
2026-02-16 11:40:06
赵光义登基后,面对兄长赵匡胤留下的24岁皇后,他是如何对待的?

赵光义登基后,面对兄长赵匡胤留下的24岁皇后,他是如何对待的?

马蹄烫嘴说美食
2026-02-15 16:58:38
黄循财亲笔书写马到功成,像小学生的水平,在新加坡拜年要送柑橘

黄循财亲笔书写马到功成,像小学生的水平,在新加坡拜年要送柑橘

飘逸的云朵
2026-02-15 08:45:42
2026-02-16 12:47:00
DATAVIEW
DATAVIEW
时刻讨论和分析世界、行业、AI等热门话题,只提取高价值信息
32文章数 2关注度
往期回顾 全部

科技要闻

OpenAI拿下OpenClaw之父 承诺开源绝不动摇

头条要闻

媒体:王毅当着欧美同事的面 直接点名日本现职首相

头条要闻

媒体:王毅当着欧美同事的面 直接点名日本现职首相

体育要闻

遭针对?谷爱凌炮轰国际雪联安排

娱乐要闻

好甜蜜!郭富城随方媛回安徽过年

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

家居
旅游
亲子
时尚
艺术

家居要闻

中古雅韵 乐韵伴日常

旅游要闻

免票!半价!春节假期乘火车来老家河南玩有福利

亲子要闻

没想到这孩子还挺有经商头脑

今年春天的裙子,裙摆越大越好看!

艺术要闻

真没想到,毛主席这14个大草字,问了上百人都无人识,你认得吗?

无障碍浏览 进入关怀版