网易首页 > 网易号 > 正文 申请入驻

Vision-Zero:零数据VLM自我进化!陈怡然团队提出零监督训练

0
分享至



本文作者包括来自杜克大学的汪勤思、林阅千、李海教授、陈怡然教授,新加坡国立大学的刘博,马里兰大学的周天翼教授,和Adobe的研究员施靖、万锟、赵文天。



  • 开源代码&模型:
  • https://github.com/wangqinsi1/Vision-Zero
  • 项目主页:
  • https://huggingface.co/papers/2509.25541
  • 论文链接:
  • https://arxiv.org/abs/2509.25541



背景介绍

尽管目前VLM在多模态任务上表现突出,但训练过度依赖人工标注的数据与精心设计的强化学习奖励。这种依赖带来数据稀缺问题:多模态标注成本高昂,限制了训练数据的规模与多样性。同时存在知识天花板:模型能力受人类监督边界限制,难以突破人类已有知识和策略。曾经AlphaGo所使用的自博弈技术通过模型与自身副本竞争交互并自动获取反馈,把计算转变为数据的同时消除了对人工监督的依赖,这使得它能够持续推动模型进步并突破人类能力上限。但是受制于VLM的多模态特性,目前鲜有对自博弈在VLM上应用的系统性研究。为此研究团队设计了一套适应VLM特性的自博弈框架Vision-Zero,此框架有如下特点:

(1)策略自博弈框架:Vision-Zero在以社交推理类游戏为模板的环境中训练VLM,使得agent在自博弈过程中自动生成高复杂度推理数据,而无需人工标注。

(2)任意形式的图片都可作为输入:和以往有限制条件的游戏化训练框架不同的是,Vision-Zero可在任意形式的图片上启动游戏,这使得模型可以在很多不同的领域里获得相应的能力提升,并有很好的泛化性能。

(3)持续的性能提升:研究团队提出了自博弈和可验证奖励的强化学习(RLVR)交替优化的自博弈策略优化算法(Iterative-SPO),这一算法解决了传统自博弈算法中常见的性能瓶颈问题。

尽管没有用任何标注数据做训练,Vision-Zero在多个领域如推理,图表问答和Vision-Centric理解任务上超越了其他有标注的SOTA后训练方法。



从棋盘到现实:

AlphaGo自博弈思想的泛化

自博弈作为OpenAI早期的重要技术路线之一,也是人工智能发展历程中多项里程碑事件的关键推动力。典型代表包括2016年AlphaGo战胜李世石,以及2019年OpenAI Five在Dota 2上击败世界冠军OG战队。人们在看到自博弈在某些特定领域大幅超越人类智能的同时,往往也会思考我们是否有可能把这种思想应用到更多的开放场景中。然而让AlphaGo从棋盘走入现实需要解决以下几个难题:

(1)Agent为赢得博弈所习得的技能,应当与目标任务所需的技能高度一致。

(2)博弈环境应当足够多样且复杂,以便广泛的目标任务都能够满足条件(1)。

(3)技能增长应当具有可扩展性:随着自博弈的进行,环境应当不断提高难度,使得越来越强的智能体能够涌现,而不是让训练收敛到一个固定的上限。

受到社交推理游戏,如“谁是卧底”的启发,研究团队设计了一套完备的自博弈规则以解决上述难题,具体规则如下:

(1)游戏中有n名平民和1名卧底。玩家首先被告知自己的角色。

(2)每名玩家会得到一张图片,卧底的图片与平民略有不同(如缺失、添加或修改了某个物体)。

(3)线索阶段:每位玩家观察自己的图片,并给出一个口头线索,描述图片内容(可以是物体描述、推断信息等)。

(4)决策阶段:多轮线索给出后,进入决策阶段。玩家根据线索结合自己的图片,投票找出卧底。



此游戏具有高度策略性与挑战性,卧底需要根据他人线索推断并伪装自己,避免暴露。平民需要提供足够准确但不泄密的线索,同时分析他人线索寻找可疑点。如此一来,Agent在游戏过程中便可生成足够长且复杂的推理链条,并且随着对手能力的提升,其所面临的挑战也会越来越大,并被激发出更强的视觉理解与推理能力。

领域无关的数据输入

此游戏仅需要两张有细微差异的图片对作为输入即可启动,得益于目前强大的图片编辑工具如ChatGPT或nano banana,数据的构建极其简单并且成本低廉,因此此框架的应用场景非常广泛。研究团队使用了三种完全不同的场景图片输入作为训练数据:

(1)CLEVR合成场景:使用CLEVR渲染器自动生成了2000对图像。原图有4–6个随机排列的物体,修改图中有两个物体在颜色和形状上被改变。

(2)图表数据:从ChartQA训练集随机选取了1000张图表作为原始图像,并使用Gemini2.5-Flash随机交换图表中的数值属性生成对应的修改图像。

(3)真实世界图片:从ImgEdit训练集中随机抽取了1000对图像,该数据集包含高质量的真实世界单轮图像编辑对。


从局部均衡到可持续提升

纯自博弈训练容易陷入局部平衡,难以探索新的推理路径,而单独的强化学习方法在掌握现有问题集后也易出现知识饱和。为缓解这些问题,作者团队提出采用双阶段交替训练:当决策阶段表现显示线索阶段已饱和时转向线索训练提高难度,反之则切回决策阶段。此方法被命名为Iterative Self-Play Policy Optimization。实验表明,两阶段交替训练性能明显优于单阶段训练,对比如下。



实验结果

强任务泛化能力。为了评估Vision-Zero框架下训练的VLM是否能泛化到更广泛的推理与数学任务,作者团队在六个基准数据集上对模型进行测试(结果见表1)。实验表明,即使没有使用标注数据做训练,Vision-Zero在各项基准上一致性得优于其他需要标注的SOTA方法。其中,VisionZero-Qwen-7B(CLEVR、Real-World)较基线提升约3%,VisionZero-Qwen-7B(Chart)提升约2.8%,而目前最优的基线方法仅约1.9%。值得注意的是,基线方法需要大量数学与推理样本训练,而Vision-Zero环境并未显式包含数学任务,只通过自然语言策略博弈提升逻辑推理,并将所学能力有效迁移到更广泛的数学与推理任务,甚至超过专门在大规模任务数据上训练的模型。



跨能力负迁移的缓解。VLM后训练的关键难题之一是跨能力负迁移,即在特定任务上训练后,模型在其他任务上反而变差。表2显示,基线模型在推理和数学数据上后训练后,性能明显下降,例如MM-Eureka-Qwen-7B在ChartQA上下降约10%。相比之下,Vision-Zero训练的模型能有效缓解负迁移:VisionZero-Qwen-7B(CLEVR)在视觉任务上显著提升,同时在四个图表/OCR任务上平均仅下降0.2%;VisionZero-Qwen-7B(Chart)在全部图表/OCR基准上都有提升,并在视觉任务上平均再涨1%。这表明Vision-Zero的多能力策略训练显著减轻了传统单一任务训练中的负迁移问题。



启示

Vision-Zero证明了自博弈从单一任务走向通用任务的可行性与巨大潜力。通过构建开放、可扩展的博弈环境,它摆脱人工标注依赖,突破数据和知识瓶颈,使模型在无需特定任务训练的前提下实现可持续的能力进化与跨领域泛化。同时,双阶段交替优化有效避免自博弈常见的局部均衡问题。并且,通过自博弈训练的VLM有效缓解了传统的在单一任务上做训练的跨能力负迁移问题。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
海港每次夺冠都有一个大腿! 以前是胡尔克 奥斯卡 武磊 今年是谁

海港每次夺冠都有一个大腿! 以前是胡尔克 奥斯卡 武磊 今年是谁

80后体育大蜀黍
2025-11-03 22:27:56
詹俊点评英超本赛季至今最佳和最差引援 扎卡和伊萨克上榜

詹俊点评英超本赛季至今最佳和最差引援 扎卡和伊萨克上榜

智道足球
2025-11-04 13:44:28
中共中央批准,开除王建军党籍

中共中央批准,开除王建军党籍

新京报政事儿
2025-11-03 11:13:13
A股:今日,让人失望至极,释放了两个信号,反弹即将进入尾声了?

A股:今日,让人失望至极,释放了两个信号,反弹即将进入尾声了?

振华观史
2025-11-04 11:46:11
一个男人,对你说这3句话时,就是“想你了”,千万别不懂

一个男人,对你说这3句话时,就是“想你了”,千万别不懂

新时代的两性情感
2025-10-24 04:44:40
丰田大本营,被一辆比亚迪「海獭」惊醒了

丰田大本营,被一辆比亚迪「海獭」惊醒了

爱范儿
2025-11-04 08:51:20
俄中总理在杭州会晤后签署联合公报

俄中总理在杭州会晤后签署联合公报

俄罗斯卫星通讯社
2025-11-04 15:04:30
澳洲地产大亨之子重病赴华求治,老中医开口一句令男子彻底傻眼

澳洲地产大亨之子重病赴华求治,老中医开口一句令男子彻底傻眼

红豆讲堂
2025-10-14 09:30:03
警惕!这种“毒碗”已经上黑榜了,检查一下,家里有的赶紧扔了吧

警惕!这种“毒碗”已经上黑榜了,检查一下,家里有的赶紧扔了吧

削桐作琴
2025-10-24 15:45:22
黄金税收新规来了,你手上的金手镯可能卖不上价了。

黄金税收新规来了,你手上的金手镯可能卖不上价了。

流苏晚晴
2025-11-03 19:13:08
难以置信!西安一男子在足疗养生馆花51万,活到120多岁才能做完

难以置信!西安一男子在足疗养生馆花51万,活到120多岁才能做完

火山诗话
2025-11-04 05:13:45
千亿梦破碎!从62亿营收到日亏百万,为什么降价认怂也救不了西贝

千亿梦破碎!从62亿营收到日亏百万,为什么降价认怂也救不了西贝

坠入二次元的海洋
2025-10-28 09:11:16
42岁男子整理母亲遗物,无意翻出20年前买的十几包黄金:涨7倍,1克净赚550元

42岁男子整理母亲遗物,无意翻出20年前买的十几包黄金:涨7倍,1克净赚550元

娱乐的硬糖吖
2025-11-03 07:52:51
京津冀地区名声很臭的6所大学,被人民日报曝光!毕业证就是废纸

京津冀地区名声很臭的6所大学,被人民日报曝光!毕业证就是废纸

高三倒计时
2025-11-03 17:28:49
突发特讯!郑丽文通告全球:要终结两岸自相残杀的悲剧

突发特讯!郑丽文通告全球:要终结两岸自相残杀的悲剧

科技处长
2025-11-04 15:03:34
广西男子自驾失联后续:车已找到,记录仪被粘住,镜头前曾有人影

广西男子自驾失联后续:车已找到,记录仪被粘住,镜头前曾有人影

好贤观史记
2025-11-04 14:16:07
于海青:为何说王文涛提议恢复中日韩自贸协定谈判将对青岛提振?

于海青:为何说王文涛提议恢复中日韩自贸协定谈判将对青岛提振?

于海青
2025-11-04 00:26:32
外交部:中方将于2025年11月10日至2026年12月31日对瑞典免签

外交部:中方将于2025年11月10日至2026年12月31日对瑞典免签

环球网资讯
2025-11-03 15:38:57
他被评为中尉,说是被照顾了,他说:我不占便宜,谁需要谁拿去!

他被评为中尉,说是被照顾了,他说:我不占便宜,谁需要谁拿去!

大运河时空
2025-11-03 17:55:03
饿了么将更名,回应来了

饿了么将更名,回应来了

21世纪经济报道
2025-11-04 10:07:11
2025-11-04 19:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11647文章数 142497关注度
往期回顾 全部

科技要闻

硅谷甄嬛传:奥特曼优雅挑衅马斯克狠狠回击

头条要闻

上海一老小区居民因加装电梯引争执 调解时一老人猝死

头条要闻

上海一老小区居民因加装电梯引争执 调解时一老人猝死

体育要闻

27岁热刺门将,夺冠后退役当导演

娱乐要闻

爸爸去哪儿6孩子现状,个个不同

财经要闻

作价40亿美元!星巴克中国易主

汽车要闻

把海岸诗意织进日常 法拉利Amalfi重塑超跑生活方式

态度原创

家居
游戏
健康
艺术
手机

家居要闻

年轻态度 功能舒适兼备

国行PS5 Pro百亿补贴!无需领券 比官方还便宜200元

超声探头会加重受伤情况吗?

艺术要闻

何镜堂院士出手!广州再添150米新地标

手机要闻

消息称三星Galaxy S26系列手机将涨价,DRAM供应链短缺成主因

无障碍浏览 进入关怀版