网易首页 > 网易号 > 正文 申请入驻

Vision-Zero:零数据VLM自我进化!陈怡然团队提出零监督训练

0
分享至

来源:市场资讯

(来源:机器之心Pro)

本文作者包括来自杜克大学的汪勤思、林阅千、李海教授、陈怡然教授,新加坡国立大学的刘博,马里兰大学的周天翼教授,和Adobe的研究员施靖、万锟、赵文天。



背景介绍

尽管目前VLM在多模态任务上表现突出,但训练过度依赖人工标注的数据与精心设计的强化学习奖励。这种依赖带来数据稀缺问题:多模态标注成本高昂,限制了训练数据的规模与多样性。同时存在知识天花板:模型能力受人类监督边界限制,难以突破人类已有知识和策略。曾经AlphaGo所使用的自博弈技术通过模型与自身副本竞争交互并自动获取反馈,把计算转变为数据的同时消除了对人工监督的依赖,这使得它能够持续推动模型进步并突破人类能力上限。但是受制于VLM的多模态特性,目前鲜有对自博弈在VLM上应用的系统性研究。为此研究团队设计了一套适应VLM特性的自博弈框架Vision-Zero,此框架有如下特点:

(1)策略自博弈框架:Vision-Zero在以社交推理类游戏为模板的环境中训练VLM,使得agent在自博弈过程中自动生成高复杂度推理数据,而无需人工标注。

(2)任意形式的图片都可作为输入:和以往有限制条件的游戏化训练框架不同的是,Vision-Zero可在任意形式的图片上启动游戏,这使得模型可以在很多不同的领域里获得相应的能力提升,并有很好的泛化性能。

(3)持续的性能提升:研究团队提出了自博弈和可验证奖励的强化学习(RLVR)交替优化的自博弈策略优化算法(Iterative-SPO),这一算法解决了传统自博弈算法中常见的性能瓶颈问题。

尽管没有用任何标注数据做训练,Vision-Zero在多个领域如推理,图表问答和Vision-Centric理解任务上超越了其他有标注的SOTA后训练方法。


从棋盘到现实:

AlphaGo自博弈思想的泛化

自博弈作为OpenAI早期的重要技术路线之一,也是人工智能发展历程中多项里程碑事件的关键推动力。典型代表包括2016年AlphaGo战胜李世石,以及2019年OpenAI Five在Dota 2上击败世界冠军OG战队。人们在看到自博弈在某些特定领域大幅超越人类智能的同时,往往也会思考我们是否有可能把这种思想应用到更多的开放场景中。然而让AlphaGo从棋盘走入现实需要解决以下几个难题:

(1)Agent为赢得博弈所习得的技能,应当与目标任务所需的技能高度一致。

(2)博弈环境应当足够多样且复杂,以便广泛的目标任务都能够满足条件(1)。

(3)技能增长应当具有可扩展性:随着自博弈的进行,环境应当不断提高难度,使得越来越强的智能体能够涌现,而不是让训练收敛到一个固定的上限。

受到社交推理游戏,如“谁是卧底”的启发,研究团队设计了一套完备的自博弈规则以解决上述难题,具体规则如下:

(1)游戏中有n名平民和1名卧底。玩家首先被告知自己的角色。

(2)每名玩家会得到一张图片,卧底的图片与平民略有不同(如缺失、添加或修改了某个物体)。

(3)线索阶段:每位玩家观察自己的图片,并给出一个口头线索,描述图片内容(可以是物体描述、推断信息等)。

(4)决策阶段:多轮线索给出后,进入决策阶段。玩家根据线索结合自己的图片,投票找出卧底。


此游戏具有高度策略性与挑战性,卧底需要根据他人线索推断并伪装自己,避免暴露。平民需要提供足够准确但不泄密的线索,同时分析他人线索寻找可疑点。如此一来,Agent在游戏过程中便可生成足够长且复杂的推理链条,并且随着对手能力的提升,其所面临的挑战也会越来越大,并被激发出更强的视觉理解与推理能力。

领域无关的数据输入

此游戏仅需要两张有细微差异的图片对作为输入即可启动,得益于目前强大的图片编辑工具如ChatGPT或nano banana,数据的构建极其简单并且成本低廉,因此此框架的应用场景非常广泛。研究团队使用了三种完全不同的场景图片输入作为训练数据:

(1)CLEVR合成场景:使用CLEVR渲染器自动生成了2000对图像。原图有4–6个随机排列的物体,修改图中有两个物体在颜色和形状上被改变。

(2)图表数据:从ChartQA训练集随机选取了1000张图表作为原始图像,并使用Gemini2.5-Flash随机交换图表中的数值属性生成对应的修改图像。

(3)真实世界图片:从ImgEdit训练集中随机抽取了1000对图像,该数据集包含高质量的真实世界单轮图像编辑对。

从局部均衡到可持续提升

纯自博弈训练容易陷入局部平衡,难以探索新的推理路径,而单独的强化学习方法在掌握现有问题集后也易出现知识饱和。为缓解这些问题,作者团队提出采用双阶段交替训练:当决策阶段表现显示线索阶段已饱和时转向线索训练提高难度,反之则切回决策阶段。此方法被命名为Iterative Self-Play Policy Optimization。实验表明,两阶段交替训练性能明显优于单阶段训练,对比如下。


实验结果

强任务泛化能力。为了评估Vision-Zero框架下训练的VLM是否能泛化到更广泛的推理与数学任务,作者团队在六个基准数据集上对模型进行测试(结果见表1)。实验表明,即使没有使用标注数据做训练,Vision-Zero在各项基准上一致性得优于其他需要标注的SOTA方法。其中,VisionZero-Qwen-7B(CLEVR、Real-World)较基线提升约3%,VisionZero-Qwen-7B(Chart)提升约2.8%,而目前最优的基线方法仅约1.9%。值得注意的是,基线方法需要大量数学与推理样本训练,而Vision-Zero环境并未显式包含数学任务,只通过自然语言策略博弈提升逻辑推理,并将所学能力有效迁移到更广泛的数学与推理任务,甚至超过专门在大规模任务数据上训练的模型。


跨能力负迁移的缓解。VLM后训练的关键难题之一是跨能力负迁移,即在特定任务上训练后,模型在其他任务上反而变差。表2显示,基线模型在推理和数学数据上后训练后,性能明显下降,例如MM-Eureka-Qwen-7B在ChartQA上下降约10%。相比之下,Vision-Zero训练的模型能有效缓解负迁移:VisionZero-Qwen-7B(CLEVR)在视觉任务上显著提升,同时在四个图表/OCR任务上平均仅下降0.2%;VisionZero-Qwen-7B(Chart)在全部图表/OCR基准上都有提升,并在视觉任务上平均再涨1%。这表明Vision-Zero的多能力策略训练显著减轻了传统单一任务训练中的负迁移问题。


启示

Vision-Zero证明了自博弈从单一任务走向通用任务的可行性与巨大潜力。通过构建开放、可扩展的博弈环境,它摆脱人工标注依赖,突破数据和知识瓶颈,使模型在无需特定任务训练的前提下实现可持续的能力进化与跨领域泛化。同时,双阶段交替优化有效避免自博弈常见的局部均衡问题。并且,通过自博弈训练的VLM有效缓解了传统的在单一任务上做训练的跨能力负迁移问题。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今年广东江苏很多工厂纷纷取消年会,员工:形式化的年会不如发钱

今年广东江苏很多工厂纷纷取消年会,员工:形式化的年会不如发钱

捣蛋窝
2026-01-29 15:01:04
刚刚,支付宝实盘榜下架!发生了什么?

刚刚,支付宝实盘榜下架!发生了什么?

金石随笔
2026-01-31 09:58:47
牢A这波输出真是细思极恐!章莹颖案都过去6年了,凶手一点不透露

牢A这波输出真是细思极恐!章莹颖案都过去6年了,凶手一点不透露

静若梨花
2026-01-27 15:33:14
A股:下周一,2月2日,不出意外的话,很可能将上演熟悉的剧情

A股:下周一,2月2日,不出意外的话,很可能将上演熟悉的剧情

甜柠聊史
2026-01-31 09:46:00
悲催!宜宾一24岁男子熬夜玩手机猝死,母亲悲痛发文讲述事发过程

悲催!宜宾一24岁男子熬夜玩手机猝死,母亲悲痛发文讲述事发过程

火山诗话
2026-01-31 07:39:29
不结婚怎么解决生理需求?56岁的歌唱家张也,用行动给出了答案

不结婚怎么解决生理需求?56岁的歌唱家张也,用行动给出了答案

娱说瑜悦
2026-01-24 13:34:35
闷声干大事!汪小菲掌握实证,S妈主动示好和谈,堡垒要打破了

闷声干大事!汪小菲掌握实证,S妈主动示好和谈,堡垒要打破了

前行之路
2026-01-19 09:45:54
克林顿披露:当年为了打赢朝鲜战争,美国共投入了将近200万军队

克林顿披露:当年为了打赢朝鲜战争,美国共投入了将近200万军队

墨兰史书
2026-01-31 07:30:07
你闻过最难闻的味道是什么?网友:分手多年,依然忘不了她的味道

你闻过最难闻的味道是什么?网友:分手多年,依然忘不了她的味道

另子维爱读史
2026-01-03 21:33:36
欧洲拒绝动物内脏原因:被隐藏得太深,韩国历史给出回答

欧洲拒绝动物内脏原因:被隐藏得太深,韩国历史给出回答

泠泠说史
2026-01-10 16:12:25
80岁拾荒老太被富二代砸烂三轮车,她淡定拨通号码:儿子帮我个忙

80岁拾荒老太被富二代砸烂三轮车,她淡定拨通号码:儿子帮我个忙

白云故事
2026-01-30 11:40:09
越南政府总理范明政:要求审查重点交通项目,秉持“谁错处理谁”,但不得造成阻碍

越南政府总理范明政:要求审查重点交通项目,秉持“谁错处理谁”,但不得造成阻碍

越南语学习平台
2026-01-31 09:27:28
红颜引祸9:半路截杀,狠手废敌了前仇

红颜引祸9:半路截杀,狠手废敌了前仇

金昔说故事
2026-01-31 20:03:50
热水袋是大补,医生提醒:一个热水袋胜过十个老中医!不要嫌老土

热水袋是大补,医生提醒:一个热水袋胜过十个老中医!不要嫌老土

岐黄传人孙大夫
2026-01-29 05:55:03
讽刺!忙活半天只得1板仍是郭士强爱将,2大弃将拿59分却报国无门

讽刺!忙活半天只得1板仍是郭士强爱将,2大弃将拿59分却报国无门

后仰大风车
2026-01-31 08:10:10
天呀,杜海涛竟然现成这样了,沈梦辰对他是真爱啊

天呀,杜海涛竟然现成这样了,沈梦辰对他是真爱啊

草莓解说体育
2026-01-07 01:43:18
倒计时6天!续约+交易+减负,快船补强方案明朗,哈登才是关键

倒计时6天!续约+交易+减负,快船补强方案明朗,哈登才是关键

一登侃球
2026-01-31 23:17:05
上海宣布:购车以旧换新,最高补贴2万元!2月6日首轮摇号,每月一次,细则公布→

上海宣布:购车以旧换新,最高补贴2万元!2月6日首轮摇号,每月一次,细则公布→

新民晚报
2026-01-31 12:05:53
外资撤不走,中国拦不住,如今的中国广东,制造早已不是代工

外资撤不走,中国拦不住,如今的中国广东,制造早已不是代工

甜柠聊史
2026-01-23 14:01:57
C919第二总装厂落地哪里?这三个城市激烈竞争,但最终输给了它!

C919第二总装厂落地哪里?这三个城市激烈竞争,但最终输给了它!

比利
2026-01-30 19:32:26
2026-01-31 23:44:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2057548文章数 5305关注度
往期回顾 全部

科技要闻

SpaceX申请部署百万卫星 打造太空数据中心

头条要闻

新年"打虎"不停歇 三天落马两个正部级

头条要闻

新年"打虎"不停歇 三天落马两个正部级

体育要闻

新时代得分王!东皇37+三双刷7纪录怒吼释放

娱乐要闻

李维嘉、吴昕、汪涵现身魏文彬追悼会

财经要闻

白银,暴跌!黄金,40年最大跌幅!

汽车要闻

新款宾利欧陆GT S/GTC S官图发布 V8混动加持

态度原创

本地
家居
游戏
时尚
公开课

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

家居要闻

蓝调空舍 自由与个性

B社大佬:《老滚6》必须好好学《博德3》!

10个瞬间,回顾这一年

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版