网易首页 > 网易号 > 正文 申请入驻

用"战舰"游戏训练AI智能体提问能力

0
分享至


2026年,围绕AI智能体的讨论热度持续攀升。这类半自主程序能够"思考"并执行客户服务、软件开发等领域中定义明确的任务,通常以大语言模型为核心驱动。然而,医疗诊断、科学探索等领域要求智能体在不确定的环境中对大量可能的解决方案进行探索,这恰恰是大语言模型的短板所在。

麻省理工学院计算机科学与人工智能实验室(CSAIL)和哈佛大学工程与应用科学学院(SEAS)的研究人员深入剖析了大语言模型在高风险场景中的核心问题。他们选取"战舰"这款经典猜谜游戏作为测试载体——认知科学家长期以来借助这款游戏研究人类的信息搜索行为。

两支团队的研究人员为这款游戏引入了新的变体,将其改造为围绕自然语言问答展开的形式。在"协作战舰"游戏中,一名参与者扮演"船长",负责询问隐藏舰船的位置;队友则扮演"观察员",实时回应这些问题。

研究人员首先让40余名人类玩家参与游戏,收集他们的提问与是非题作答,构建出"BattleshipQA"数据集。随后,团队用这批数据作为对照基准,在游戏中测试了包括GPT-5在内的前沿大语言模型和Llama 4 Scout等小型模型。在未对模型进行预训练的情况下,结果显示:顶尖大语言模型能够在"战舰"游戏中"击败"人类,即用更少的回合完成游戏;而小型模型的表现则明显不够理性。

核心问题在于,许多模型根本不擅长提出有价值的问题。为了引导大语言模型提出能揭示更多隐藏舰船信息的问题,研究人员为每个模型引入了蒙特卡洛推理策略,该策略能够在每次回应后精确衡量不同选项为正确答案的概率。结果表明,无论模型规模大小,AI模型均能在"战舰"游戏中战胜普通玩家。

其中最引人瞩目的是Llama 4 Scout的提升幅度。作为一款相对小型的大语言模型,它最初仅有8%的胜率能够超越人类,但在优化推理策略后,该模型对阵人类的胜率跃升至82%。这种审慎高效的提问方式还让该模型在性能上超越了前沿模型GPT-5,而运行成本仅约为后者的1%。

在此之外,研究人员还缩小了人类与大语言模型在问题作答方面的差距。GPT-5作为"观察员"表现可靠,有效帮助模型加快了游戏进程;而小型模型则存在频繁给出错误位置信息的问题。当模型开始将问题转化为代码来明确指导答案核验时(例如,被问及某处是否有舰船时,令模型执行区域快速搜索),模型的平均准确率提升了15%。

麻省理工学院博士生、CSAIL研究员Gabriel Grand表示:"当今的大语言模型主要针对回答复杂问题进行了优化,但它们能否自主学会提出好问题,目前尚不明朗。我们的研究表明,提出有效问题依赖于预测和模拟世界的能力。我们发现,当智能体获得'世界模型'的支持后,它们能够提出更好的问题,并更高效地做出发现。"

大语言模型的方法论变革

研究团队首先专注于提升大语言模型的提问质量。通过引入蒙特卡洛推理策略,大语言模型将潜在猜测视为独立粒子进行推理。随着"观察员"每次给出回答,那些看起来更合理的选项会获得更高权重,就像游戏中随每一轮涨缩的气球。借助这种更为精细、自适应的方法,"船长"可以提出能从"观察员"处获取更多信息的问题。

研究人员随后借助广泛使用的编程语言Python来辅助AI"观察员"。"船长"提出的每个问题都会被自动转化为编码指令。例如,"第一列是否有一艘横跨两行的舰船?"这类问题会被转化为指令,要求"观察员"大语言模型搜索相关区域并评估游戏棋子的宽度。通过以模型能够理解的语言给出明确指令,每个系统的答题正确率均大幅提升。轻量级模型GPT-4o-mini的性能提升了近30%,而大型模型Claude 4 Opus也提升了约8个百分点。

"'自动形式化'策略在业内已取得诸多成果——即让大语言模型生成代码以验证其解答,"论文通讯作者、麻省理工学院电气工程与计算机科学副教授、CSAIL首席研究员Jacob Andreas说,"这项工作令我最为兴奋之处在于,它开辟了利用这些技术从根本上生成更优解的可能性,通过提升大语言模型的探索能力和信息收集能力来实现这一目标。我们期待将这项研究从科学领域拓展至编程和数学问题求解等应用场景。"

拓展至其他游戏

那么,这套方法在其他棋盘游戏中表现如何?研究团队将升级后的大语言模型带入"猜猜我是谁?"游戏,大小模型均能熟练地从100个选项中缩小范围,准确猜出被选中的隐藏角色。Llama 4 Scout原本成功率为30%,经过调整后在超过72%的测试中完成了任务;GPT-4o则从62%跃升至90%。为确保问题得到尽可能准确的回答,每轮游戏均由GPT-5担任"观察员"。

尽管大语言模型在两款游戏中均取得了可喜进展,但仍有提升空间。例如,与人类相比,模型在回答复杂问题方面仍然存在不足。OpenAI研究员、哈佛大学届毕业生、论文合著者Valerio Pepe补充道:"GPT-5能够击败普通'战舰'玩家,借助我们的方法还能略有提升。但对于所有模型而言,专家级玩家依然难以应对——这与国际象棋不同,即便是顶尖棋手在AI面前也难逃败局。"

研究结果表明,AI智能体在"大海捞针"式发现任务中尚有潜力有待挖掘——即在海量选项中定位能够解决科学难题的稀有答案。尽管信息搜索能力的提升将使智能体成为出色的研究助手(例如协助识别化合物的分子结构),研究人员也坦言,"协作战舰"仍是一个相对简单的测试场景,他们希望在更复杂的环境中测试大语言模型,让这些系统面对更多的备选方案。

Grand还计划让人类与AI模型开展协作,研究双方是否能实现优势互补。模型也可能从游戏模拟的微调训练中获益,而随着算力的增强,大语言模型将具备更强的推理能力,能够更准确地预测游戏的走向。

斯坦福大学语言学助理教授Robert Hawkins(未参与本论文研究)表示:"随着AI系统越来越具有智能体属性,最棘手的问题往往是社会性的:追踪共同认知基础、消解误解,以及随时间推移适应不同的协作伙伴。这项研究在受控的协作场景中对上述现象进行了精妙的刻画,并令人信服地指出:AI智能体真正的瓶颈不仅在于最优问题的计算,更在于充分利用答案所需的语用推理能力。"

本文论文由Grand、Pepe与两位CSAIL首席研究员共同撰写,合作者为麻省理工学院副教授Jacob Andreas和麻省理工学院教授Joshua Tenenbaum。研究工作获得了麻省理工学院Siegel家族智能探索项目、MIT-IBM沃森AI实验室、FinTechAI@CSAIL计划、斯隆研究奖学金、英特尔、美国空军科学研究办公室、美国国防高级研究计划局、海军研究办公室以及美国国家科学基金会的部分支持。该论文以口头报告形式在今年4月举办的国际学习表征大会(ICLR)上发表。

Q&A

Q1:BattleshipQA数据集是怎么建立的,有什么用途?

A:研究人员邀请40余名人类玩家参与"协作战舰"游戏,收集他们在游戏过程中提出的问题以及对应的是非题作答,由此构建了BattleshipQA数据集。这份数据集被用作基准对照,帮助研究团队评估GPT-5、Llama 4 Scout等大语言模型与人类在提问和作答方面的差距,从而找到模型的薄弱环节并加以改进。

Q2:蒙特卡洛推理策略是如何提升大语言模型提问质量的?

A:蒙特卡洛推理策略让大语言模型把每个潜在猜测视为独立粒子,在"观察员"每次给出回答后,动态调整各选项的可信权重——更合理的选项权重上升,不合理的下降。这使模型能够更有针对性地提出问题,从每次回答中挖掘出更多有用信息。以Llama 4 Scout为例,引入该策略后其对阵人类的胜率从8%大幅提升至82%,且运行成本仅为GPT-5的约1%。

Q3:将问题转化为Python代码对AI回答准确率有多大帮助?

A:效果相当显著。研究人员让大语言模型将自然语言问题自动转化为Python代码指令,明确告知模型如何核验答案(如搜索指定区域判断是否有舰船存在)。这一方法使模型的平均答题准确率提升了15%。其中轻量级模型GPT-4o-mini提升幅度最大,性能提高了近30%;大型模型Claude 4 Opus也提升了约8个百分点。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央视曝光手机高价回收骗局:线下实体店回收最多给1000元的手机,二手商声称能给2000元,验机时却说手机有故障,只给150元,12人被抓

央视曝光手机高价回收骗局:线下实体店回收最多给1000元的手机,二手商声称能给2000元,验机时却说手机有故障,只给150元,12人被抓

深圳晚报
2026-06-07 20:21:28
最新统计:江苏各地市及南京各区高考人数曝光,考生最多的是.....

最新统计:江苏各地市及南京各区高考人数曝光,考生最多的是.....

南京择校
2026-06-08 22:52:28
球员也说离谱!哈特吐槽总决赛票价太不合理 G4最低价超8万人民币

球员也说离谱!哈特吐槽总决赛票价太不合理 G4最低价超8万人民币

罗说NBA
2026-06-08 07:49:51
梅毒患者难辨认?医生提示:看到2种人,还是小心些为好

梅毒患者难辨认?医生提示:看到2种人,还是小心些为好

健康之光
2026-06-07 14:35:07
把瑜伽裤穿成日常的松弛感美女

把瑜伽裤穿成日常的松弛感美女

只要高兴就好
2026-04-13 14:30:30
菲律宾把中方援助说成骗局,现在地震来了:美日盟友的电话响了吗

菲律宾把中方援助说成骗局,现在地震来了:美日盟友的电话响了吗

小虎新车推荐员
2026-06-08 15:30:51
人死如灯灭?网友被“托梦”的真实经历,逝者与生者的微妙联系

人死如灯灭?网友被“托梦”的真实经历,逝者与生者的微妙联系

夜深爱杂谈
2026-06-08 08:00:36
马刺尼克斯伤病出炉!马刺完了!卡斯尔受伤?翻盘概率仅5%!

马刺尼克斯伤病出炉!马刺完了!卡斯尔受伤?翻盘概率仅5%!

宝哥精彩赛事
2026-06-08 10:59:38
主持人问王新军,秦海璐贤惠吗,王:追我时天天做饭,后来不做了

主持人问王新军,秦海璐贤惠吗,王:追我时天天做饭,后来不做了

杰丝聊古今
2026-05-31 04:22:46
为何不待见林葳?郭士强专赴现场考察 葳少竟礼貌性握手直接走人

为何不待见林葳?郭士强专赴现场考察 葳少竟礼貌性握手直接走人

大嘴爵爷侃球
2026-06-08 12:59:57
北京今起启用新式电动自行车号牌:嵌入专属二维码,旧牌继续有效无需强换

北京今起启用新式电动自行车号牌:嵌入专属二维码,旧牌继续有效无需强换

TechWeb
2026-06-08 15:09:03
16GB当20GB用!华为首创超空间内存技术 余承东:打开20多个App都很丝滑

16GB当20GB用!华为首创超空间内存技术 余承东:打开20多个App都很丝滑

快科技
2026-06-08 18:44:10
港星被曝疑似转行任职港铁工作人员?身着规整制服站台举牌

港星被曝疑似转行任职港铁工作人员?身着规整制服站台举牌

一盅情怀
2026-06-07 17:39:35
6月9日+直播:国足VS泰国有特殊意义!武磊百场里程碑、6·15惨案

6月9日+直播:国足VS泰国有特殊意义!武磊百场里程碑、6·15惨案

开成运动会
2026-06-08 22:56:11
世界女排联赛积分榜:巴西力压日本领跑,中国女排反超波兰排第6

世界女排联赛积分榜:巴西力压日本领跑,中国女排反超波兰排第6

刘姚尧的文字城堡
2026-06-08 09:11:34
因为没钱,社会上已经出现了4大“反常现象”,看看你碰到了没?

因为没钱,社会上已经出现了4大“反常现象”,看看你碰到了没?

细说职场
2026-04-26 14:29:20
因失误获张艺谋赏识,不听李健劝告的单依纯,如今在圈内自讨苦吃

因失误获张艺谋赏识,不听李健劝告的单依纯,如今在圈内自讨苦吃

喜欢历史的阿繁
2026-06-07 14:58:20
伊朗一对“情侣”躲进谷仓中拥吻,被发现时,已经吻了2800年!

伊朗一对“情侣”躲进谷仓中拥吻,被发现时,已经吻了2800年!

抽象派大师
2026-06-05 01:43:30
穆里尼奥请佩佩加入教练团队,这哪是请助教,这是请保镖啊!

穆里尼奥请佩佩加入教练团队,这哪是请助教,这是请保镖啊!

吃多福穿好禄睡多长肉
2026-06-08 23:36:50
广东男子殉情后续!岳母再曝家丑,不止妻子被亲戚侵犯这么简单

广东男子殉情后续!岳母再曝家丑,不止妻子被亲戚侵犯这么简单

大鱼简科
2026-06-08 14:46:53
2026-06-09 00:20:49
至顶科技 incentive-icons
至顶科技
科技产业媒体与 AI 产业服务机构
19148文章数 49709关注度
往期回顾 全部

科技要闻

干掉聊天框,ChatGPT不只回答,还要办事

头条要闻

女主播拒绝男子追求被快递包裹炸伤 当事人最新发声

头条要闻

女主播拒绝男子追求被快递包裹炸伤 当事人最新发声

体育要闻

2026年世界杯?到底会是什么样?

娱乐要闻

越扒越有!奔跑吧文旅合作费近两千万

财经要闻

华润万家蜜薯被检查农药超标

汽车要闻

从真实事故场景出发 吉利银河星舰7 EV硬核安全“超纲”了

态度原创

房产
旅游
健康
教育
公开课

房产要闻

10,000元大奖等你拿!广州城投地产IP形象设计大赛火热开启!以创意贏未来!

旅游要闻

雨后枣庄东湖清凉宜人 市民乐享夏日时光

干细胞新规落地,打干细胞更容易还是更难了?

教育要闻

家庭教育的本质这段话都说透了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版