网易首页 > 网易号 > 正文 申请入驻

清华汪玉团队提出VS-Bench测试基准,能评估VLM多项能力

0
分享至

随着大模型的发展,大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务,在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而,现有的测试基准主要集中在单智能体或纯文本环境,缺少多智能体、多模态的大模型智能体测试基准,因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench(Visual Strategic Bench), 以用于评估视觉语言模型(VLM,Vision-Language Model)在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型?因为现实世界就是一个多智能体的环境,这样的环境给大模型的能力提出了新的挑战。

首先,在推理方面,因为多智能体环境的结果依赖于所有智能体的联合动作,所以智能体不仅需要自己能选择合理的动作,还要能够预测其他智能体的动作,即 theory of mind 的推理能力,才能在多智能体环境中取得好的效果。

其次,在决策方面,因为多智能体环境中存在智能体之间的合作和竞争,同时各智能体的策略和行为也在不断变化,使得环境变得非平稳,从而要求智能体要在不确定性更强的环境中优化自己的长期目标,对其决策能力提出了更大的挑战。


(来源:https://arxiv.org/pdf/2506.02387)

基于此,在本次研究之中,研究团队提出了新的测试基准 VS-Bench,以用于评估视觉语言模型在多智能体任务中的推理和决策能力,包含了合作、对抗、混合三种类型的 8 个多智能体环境。研究团队提出了 2 种互补的评估方式,一种是离线的策略推理(strategic reasoning)能力,通过智能体对其他智能体下一步动作的预测准确率来评估;另一种是在线的决策能力(decision-making),通过智能体获得的长期回报来评估。研究团队对包含推理模型、对话模型、开源模型三种共 14 个先进的视觉语言模型进行了测试,有以下主要发现:


图 | 徐泽来(来源:徐泽来)

主要发现之一是:现有大模型具有初步的策略推理能力,但距离准确预测其他智能体的动作还有较大差距。所有 14 个大模型都超过了随机智能体(随机推理),但结果最好的大模型 o4-mini 也只有 47.8% 的综合准确率。整体而言,推理模型最强,而对话模型和开源模型性能接近。


(来源:https://arxiv.org/pdf/2506.02387)

主要发现之二是:现有大模型在多智能体任务中的决策能力很弱。14 个大模型中的 10 个都只得到了和随机智能体相近的综合分数,只有 3 个推理模型明显优于随机智能体,但是性能最好的大模型 o4-mini 也只有 24.3% 的综合得分。


(来源:https://arxiv.org/pdf/2506.02387)

徐泽来指出,在绝大多数任务和环境中,推理模型都显著优于对话模型和开源模型,但是在某些多智能体社会困境的任务中,开源模型性能有显著的提升,甚至超过了部分推理模型。他们通过分析发现,这是因为开源模型虽然单个模型能力较差,但更倾向于合作共赢的行为,从而在这些任务中得到甚至超越推理模型的结果。

具体而言,本次研究的环境中有一个类似囚徒困境的环境,如果各个智能体合作则都能双赢,但智能体可能会为了更大的个人利益而选择背叛,而如果所有智能体都背叛则会陷入双输。研究团队发现推理模型通常更加“理性”,更有可能为了个人利益而选择背叛;而开源模型更倾向于合作,从而让各个智能体都能得到较高的收益。


图 | 本次论文的共同作者徐哲轩(来源:徐哲轩)


图 | 本次论文的共同作者易翔敏(来源:易翔敏)

未来,他们希望该工作能够成为大模型在多智能体任务中的一个测试基准,推动领域内多智能体算法和应用的进步,从而使大模型智能体能被更好地应用在游戏 AI、人机协作等多智能体场景中。

下一步,研究团队计划从几个方向来进一步扩展本次工作:

首先,要进行人类实验。让人类和大模型完成同样的任务,得到平均人类的分数,从而更好地评估大模型现在的能力。

其次,要拓展环境和模型。为此,研究团队计划加入更多不同类型和难度的多智能体环境,并测试更多更新的大模型。

参考资料:

https://arxiv.org/pdf/2506.02387

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
江苏女排3-0胜东道主,吴梦洁表现突出

江苏女排3-0胜东道主,吴梦洁表现突出

阿諢体育
2025-11-10 14:22:02
高市早苗喊“台湾有事日本动武”,被我外交官回怼两字后,破防了

高市早苗喊“台湾有事日本动武”,被我外交官回怼两字后,破防了

DS北风
2025-11-10 15:26:07
狂送3连败!NBA最失望的球队,一手好牌打稀烂,还不如趁早散伙

狂送3连败!NBA最失望的球队,一手好牌打稀烂,还不如趁早散伙

巴叔GO聊体育
2025-11-10 17:00:19
湖南省人医17分视频风波,女方肤白貌美、男方儒雅绅士,均被停职

湖南省人医17分视频风波,女方肤白貌美、男方儒雅绅士,均被停职

鋭娱之乐
2025-11-07 08:39:22
超雄综合症有多可怕?网友:通俗点说,这些孩子就是天生坏种!

超雄综合症有多可怕?网友:通俗点说,这些孩子就是天生坏种!

解读热点事件
2025-11-06 00:10:03
悲壮!被放鸽子后,辽宁8勇士出战,半场领先31分,1人拄拐来凑数

悲壮!被放鸽子后,辽宁8勇士出战,半场领先31分,1人拄拐来凑数

萌兰聊个球
2025-11-10 14:58:15
福州一副镇长接受审查调查

福州一副镇长接受审查调查

鲁中晨报
2025-11-10 12:39:02
纪实 蛇蝎美人劳荣枝被抬上执行车,突然放声大哭,律师:她会演

纪实 蛇蝎美人劳荣枝被抬上执行车,突然放声大哭,律师:她会演

谈史论天地
2025-10-15 15:46:35
国内自驾游最经典的27条路线,适合退休人士,争取一年走2条!

国内自驾游最经典的27条路线,适合退休人士,争取一年走2条!

走吧自驾游
2025-11-05 18:04:38
倪萍:我这辈子“最恨”的男人并不是陈凯歌,而是最“冷血”的他

倪萍:我这辈子“最恨”的男人并不是陈凯歌,而是最“冷血”的他

好叫好伐
2025-11-10 14:42:21
陈赫庆生照里看不到鹿晗?陈赫:找了一晚上这照片里的小鹿

陈赫庆生照里看不到鹿晗?陈赫:找了一晚上这照片里的小鹿

韩小娱
2025-11-10 10:11:10
35天减28斤!25岁女孩海岛求生赛吃老鼠、蜈蚣,将报名张家界荒野求生赛

35天减28斤!25岁女孩海岛求生赛吃老鼠、蜈蚣,将报名张家界荒野求生赛

潇湘晨报
2025-11-09 23:20:12
副院长与眼科副主任不雅视频事件:停诊风波背后的真相曝光!

副院长与眼科副主任不雅视频事件:停诊风波背后的真相曝光!

坠入二次元的海洋
2025-11-08 03:42:26
价值 599 元,特斯拉 Model Y L 专用交流外放电适配器免费送

价值 599 元,特斯拉 Model Y L 专用交流外放电适配器免费送

IT之家
2025-11-10 13:47:11
全运会乒乓球!8强赛对阵出炉,孙颖莎强势发威,陈幸同丢局过关

全运会乒乓球!8强赛对阵出炉,孙颖莎强势发威,陈幸同丢局过关

知轩体育
2025-11-10 16:10:54
不是尹锡悦内乱,是军方政变?承认枪毙李在明,军方集体倒戈!

不是尹锡悦内乱,是军方政变?承认枪毙李在明,军方集体倒戈!

千雪新说
2025-11-09 14:36:20
“替日洗白、放弃国籍”,口出狂言的赵立新,终于得到应有的报应

“替日洗白、放弃国籍”,口出狂言的赵立新,终于得到应有的报应

博览历史
2025-09-15 20:08:02
德国高速惊现“人车合一”!一对男女边开车边啪啪啪,时速140!

德国高速惊现“人车合一”!一对男女边开车边啪啪啪,时速140!

新欧洲
2025-11-09 19:24:22
台退役中将帅化民:九成台民拒统,解放军无负担!话中关键

台退役中将帅化民:九成台民拒统,解放军无负担!话中关键

健身狂人
2025-11-10 15:00:36
法国一男子家中花园挖出大量黄金,政府:全部归你所有

法国一男子家中花园挖出大量黄金,政府:全部归你所有

映射生活的身影
2025-11-10 09:39:45
2025-11-10 17:51:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15844文章数 514281关注度
往期回顾 全部

科技要闻

荷兰“玩脱”后,大众本田终于拿到芯片了

头条要闻

20年驾龄"老司机"一踩油门就失控了 新能源车企回应

头条要闻

20年驾龄"老司机"一踩油门就失控了 新能源车企回应

体育要闻

战绩崩盘!东契奇交易余震撕裂独行侠

娱乐要闻

郝蕾风波升级?

财经要闻

最终,万科只成全了一个人

汽车要闻

智能又务实 奇瑞瑞虎9X不只有性价比

态度原创

教育
家居
健康
艺术
公开课

教育要闻

筑牢粮安防线 勇担青春使命——山东省青岛第二卫生学校开展主题团课

家居要闻

四方食事 不过人间烟火

超声探头会加重受伤情况吗?

艺术要闻

“隶书之冠”刘炳森:楷书艺术之美惊艳四座

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版