网易首页 > 网易号 > 正文 申请入驻

清华汪玉团队提出VS-Bench测试基准,能评估VLM多项能力

0
分享至

随着大模型的发展,大模型的能力正在从单轮静态的问答、推理任务拓展到多步的、交互式的智能体任务,在软件开发、电脑使用、游戏博弈等任务中提出相应的测试基准和方法。然而,现有的测试基准主要集中在单智能体或纯文本环境,缺少多智能体、多模态的大模型智能体测试基准,因此在近期一项研究中清华大学教授汪玉团队的博士生徐泽来和合作者提出了 VS-Bench(Visual Strategic Bench), 以用于评估视觉语言模型(VLM,Vision-Language Model)在多智能体任务中的推理和决策能力。

为什么要在多智能体任务中评估大模型?因为现实世界就是一个多智能体的环境,这样的环境给大模型的能力提出了新的挑战。

首先,在推理方面,因为多智能体环境的结果依赖于所有智能体的联合动作,所以智能体不仅需要自己能选择合理的动作,还要能够预测其他智能体的动作,即 theory of mind 的推理能力,才能在多智能体环境中取得好的效果。

其次,在决策方面,因为多智能体环境中存在智能体之间的合作和竞争,同时各智能体的策略和行为也在不断变化,使得环境变得非平稳,从而要求智能体要在不确定性更强的环境中优化自己的长期目标,对其决策能力提出了更大的挑战。


(来源:https://arxiv.org/pdf/2506.02387)

基于此,在本次研究之中,研究团队提出了新的测试基准 VS-Bench,以用于评估视觉语言模型在多智能体任务中的推理和决策能力,包含了合作、对抗、混合三种类型的 8 个多智能体环境。研究团队提出了 2 种互补的评估方式,一种是离线的策略推理(strategic reasoning)能力,通过智能体对其他智能体下一步动作的预测准确率来评估;另一种是在线的决策能力(decision-making),通过智能体获得的长期回报来评估。研究团队对包含推理模型、对话模型、开源模型三种共 14 个先进的视觉语言模型进行了测试,有以下主要发现:


图 | 徐泽来(来源:徐泽来)

主要发现之一是:现有大模型具有初步的策略推理能力,但距离准确预测其他智能体的动作还有较大差距。所有 14 个大模型都超过了随机智能体(随机推理),但结果最好的大模型 o4-mini 也只有 47.8% 的综合准确率。整体而言,推理模型最强,而对话模型和开源模型性能接近。


(来源:https://arxiv.org/pdf/2506.02387)

主要发现之二是:现有大模型在多智能体任务中的决策能力很弱。14 个大模型中的 10 个都只得到了和随机智能体相近的综合分数,只有 3 个推理模型明显优于随机智能体,但是性能最好的大模型 o4-mini 也只有 24.3% 的综合得分。


(来源:https://arxiv.org/pdf/2506.02387)

徐泽来指出,在绝大多数任务和环境中,推理模型都显著优于对话模型和开源模型,但是在某些多智能体社会困境的任务中,开源模型性能有显著的提升,甚至超过了部分推理模型。他们通过分析发现,这是因为开源模型虽然单个模型能力较差,但更倾向于合作共赢的行为,从而在这些任务中得到甚至超越推理模型的结果。

具体而言,本次研究的环境中有一个类似囚徒困境的环境,如果各个智能体合作则都能双赢,但智能体可能会为了更大的个人利益而选择背叛,而如果所有智能体都背叛则会陷入双输。研究团队发现推理模型通常更加“理性”,更有可能为了个人利益而选择背叛;而开源模型更倾向于合作,从而让各个智能体都能得到较高的收益。


图 | 本次论文的共同作者徐哲轩(来源:徐哲轩)


图 | 本次论文的共同作者易翔敏(来源:易翔敏)

未来,他们希望该工作能够成为大模型在多智能体任务中的一个测试基准,推动领域内多智能体算法和应用的进步,从而使大模型智能体能被更好地应用在游戏 AI、人机协作等多智能体场景中。

下一步,研究团队计划从几个方向来进一步扩展本次工作:

首先,要进行人类实验。让人类和大模型完成同样的任务,得到平均人类的分数,从而更好地评估大模型现在的能力。

其次,要拓展环境和模型。为此,研究团队计划加入更多不同类型和难度的多智能体环境,并测试更多更新的大模型。

参考资料:

https://arxiv.org/pdf/2506.02387

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
程青松背后的娱乐圈:金扫帚奖是怎么被一群“神仙朋友”撑起来的?

程青松背后的娱乐圈:金扫帚奖是怎么被一群“神仙朋友”撑起来的?

草莓解说体育
2025-09-18 16:26:01
被央媒批评、脑袋空空、洋相百出,这5位“绝望的文盲”凭啥走红

被央媒批评、脑袋空空、洋相百出,这5位“绝望的文盲”凭啥走红

TVB的四小花
2025-09-19 05:37:43
万没想到!西贝“预制菜”风波后,这5道菜火了,因为预制不了

万没想到!西贝“预制菜”风波后,这5道菜火了,因为预制不了

诗意世界
2025-09-18 23:58:35
赔了夫人又折兵!自以为能毁掉别人,没想自己却被扒个底朝天

赔了夫人又折兵!自以为能毁掉别人,没想自己却被扒个底朝天

阿废冷眼观察所
2025-09-18 15:02:30
嘎子谢孟伟被拘7天后续:律师解读其或面临巨额赔偿,导演发声!

嘎子谢孟伟被拘7天后续:律师解读其或面临巨额赔偿,导演发声!

古希腊掌管松饼的神
2025-09-18 09:13:57
三位大人物骨灰被移出八宝山,他们分别是谁?其中一人是开国上将

三位大人物骨灰被移出八宝山,他们分别是谁?其中一人是开国上将

文史达观
2025-09-08 20:13:26
停战不到两个月,泰国打响第一枪?柬埔寨派人来华,中方斩钉截铁

停战不到两个月,泰国打响第一枪?柬埔寨派人来华,中方斩钉截铁

小涛叨叨
2025-09-19 05:05:43
万幸中国没帮俄罗斯,美国早就布下了三个陷阱,一个比一个致命

万幸中国没帮俄罗斯,美国早就布下了三个陷阱,一个比一个致命

时分秒说
2025-09-17 11:13:13
杭州“土豪”老赖欠下半亿,豪宅里茅台当矿泉水、鹿鞭当辣条

杭州“土豪”老赖欠下半亿,豪宅里茅台当矿泉水、鹿鞭当辣条

金哥说新能源车
2025-09-19 01:17:55
广西杜伟被免去自治区政协常委职务

广西杜伟被免去自治区政协常委职务

岭南美玉
2025-09-18 23:47:01
收到访华邀请,特朗普提了两个条件,只要中方做到专机立马起飞!

收到访华邀请,特朗普提了两个条件,只要中方做到专机立马起飞!

叮当当科技
2025-09-19 05:39:53
100多国齐聚北京,中国防长强硬表态,美代表直呼中美和平共处

100多国齐聚北京,中国防长强硬表态,美代表直呼中美和平共处

兰妮搞笑分享
2025-09-19 05:38:44
55岁窦唯已迁居阿那亚多年,骑电动车,买菜砍价,生活过得惬意

55岁窦唯已迁居阿那亚多年,骑电动车,买菜砍价,生活过得惬意

书雁飞史oh
2025-09-08 17:38:38
曾毅现身老家养病近照曝光!脸上长4个大包,3个月暴瘦20斤好憔悴

曾毅现身老家养病近照曝光!脸上长4个大包,3个月暴瘦20斤好憔悴

娱乐圈圈圆
2025-09-18 11:10:29
停止透支陈妤颉未来!成绩排名世界第711,先超葛曼棋梁小静再说

停止透支陈妤颉未来!成绩排名世界第711,先超葛曼棋梁小静再说

杨华评论
2025-09-18 15:25:46
中欧班列大面积受阻,中国成功化解一场顶级阴谋

中欧班列大面积受阻,中国成功化解一场顶级阴谋

罗列思维
2025-09-16 18:13:31
我在韩系车企中工作过,说句实话,韩系车在华的没落绝非战之罪

我在韩系车企中工作过,说句实话,韩系车在华的没落绝非战之罪

李子橱
2025-08-12 07:49:55
疯狂套现40亿!创始人在美买豪宅、私人飞机,万千股民血本无归!

疯狂套现40亿!创始人在美买豪宅、私人飞机,万千股民血本无归!

阿器谈史
2025-09-16 19:50:46
黄蜂裁掉前国王火箭锋线,他想要继续留在NBA可能有些困难?

黄蜂裁掉前国王火箭锋线,他想要继续留在NBA可能有些困难?

稻谷与小麦
2025-09-19 00:45:04
Sydney Sweeney 片酬750万美元,新的劳模姐!

Sydney Sweeney 片酬750万美元,新的劳模姐!

下水道男孩
2025-09-17 23:29:45
2025-09-19 06:55:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15638文章数 514088关注度
往期回顾 全部

科技要闻

xAI高层动荡:与马斯克顾问闹矛盾,多人离职

头条要闻

男子给小35岁情人转1340万 妻子:第三者生活极度奢侈

头条要闻

男子给小35岁情人转1340万 妻子:第三者生活极度奢侈

体育要闻

身高170的他,让196的博尔特坐不住了

娱乐要闻

最美央视才女,甩掉孙红雷嫁给张嘉益

财经要闻

起底多校“发臭午餐”供应商绿捷

汽车要闻

女神代言/新增配色/智能升级 26款腾势N9售38.98万起

态度原创

房产
教育
亲子
时尚
艺术

房产要闻

好猛!海南楼市,一批王炸楼盘杀出!

教育要闻

家里有情绪低谷的孩子?别急,转运的信号正在靠近

亲子要闻

郭富城38岁妻子方媛,晒三胎孕晚期Vlog自曝“已经96斤啦”

秋冬穿对红黄橙,温暖又高级

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

无障碍浏览 进入关怀版