网易首页 > 网易号 > 正文 申请入驻

上海AI Lab与浙大EagleLab推出RRVF,助力视觉推理新突破。

0
分享至

本本研究由上海AI Lab前沿探索中心石博天老师带领的数据前沿团队、浙江大学EagleLab和上海创智学院等单位联合完成。第一作者陈杨是浙江大学硕士生,研究方向为多模态大模型和推理,本工作完成于她在上海AI Lab实习期间,实习所在团队以Agent-Ready的知识为核心,实现「提取->结构化->推理」全链路,包括基于MLLM的文档理解、基于异质图网络的多模态知识表征、自主终身学习智能体等。论文共同第一作者、通讯作者沈宇帆就职于上海AI Lab,正在全身心探索下一代 MLLM 学习范式和高效的多模态智能体。论文的共同通讯作者于智是浙江大学 EagleLab 副教授,曾任浙大 ACM 教练并执教获世界总冠军。功成身退之后,长期致力于用 AI 改善残障人群生活,在信息无障碍和人工智能领域有深厚造诣。

一个任务有多容易被 AI 解决?最终可能只取决于一个简单的问题:它的答案有多容易被验证?

这,就是验证非对称性(Asymmetry of Verification)—— 一个古老但正在重塑 AI 未来的深刻原则。它的核心思想是:对很多任务而言,验证一个解的好坏,远比从头创造一个解要容易得多

这一思想,正是近期从 OpenAI 跳槽至 Meta 的思维链(CoT)开山作者 Jason Wei 在其最新博客中提出的「验证者法则」(Verifier's Law)的基石。他断言:「所有可能被解决且易于验证的任务,都将被 AI 解决。」

为什么?因为一个任务如果具备客观真理、可快速验证、可规模化验证、低噪音、连续奖励等特性,就相当于为强化学习(RL)创造了一个完美的训练场。AI 可以在这个场中进行海量的、高效率的「猜测 - 检验」(guess-and-check),通过不断的迭代优化,最终逼近最优解。

而这一法则的最佳实践,已经悄然出现在了多模态领域。上海AILAB和浙江大学EagleLab的最新研究RRVF(Reasoning-Rendering-Visual-Feedback),就完美诠释了如何利用「验证的非对称性」来攻克复杂的视觉推理难题。

  • 论文标题:Learning Only with Images: Visual Reinforcement Learning with Reasoning,Rendering,and Visual Feedback
  • 论文地址:https://arxiv.org/pdf/2507.20766

RRVF:Image2code 的「验证者法则」训练场

在传统 AI 训练中,我们依赖昂贵的「图像 - 文本」配对数据来教模型进行视觉推理。这不仅成本高昂,而且很多时候限制了 AI 的创造力,例如使用特定的 code 来训练还原 image。

图 1: RRVF vs 通用训练方法,只需输入图片,利用推理、渲染、反馈进行强化学习

RRVF 框架则另辟蹊径,它没有去教模型「怎么做」,而是构建了一个让模型可以自我验证的环境。RRVF 的全称是「Reasoning-Rendering-Visual-Feedback」(推理 - 渲染 - 视觉反馈),这三个词精准地概括了其核心工作流。它构建了一个端到端优化的闭环系统,让模型在「自我纠正」中学习。

图2: RRVF框架图

第一步:迭代式视觉推理 (Iterative Visual Reasoning)

  • 面对一张目标图像(如数据图表),它会进行迭代式多轮思考。在每一轮,模型都会在 < think > 中先写下自己的思考过程,然后调用外部工具进行渲染和获取反馈,在后续轮次中根据反馈修正自己的代码。

图 3: 迭代视觉推理算法

第二步:视觉反馈 (Visual Feedback)

  • 外部工具(如 Matplotlib 或 Playwright 浏览器)执行代码后,会渲染生成图片。此时,一个更强大的「视觉裁判」模型(论文中使用了 72B 的 Qwen2.5-VL)会介入,对比渲染图和原图,并生成定性的、结构化的自然语言反馈,例如:「图表类型正确,但颜色不匹配」、「网页布局基本正确,但缺少了一个按钮」。这些反馈会作为新的输入,指导模型进行下一轮的代码修正。

第三步:视觉裁判 (Visual Judge) & 混合奖励

  • 在整个迭代过程结束后,模型会输出最终的代码。此时,「视觉裁判」会再次出场,但这次它扮演的是「法官」角色,给出一个定量的视觉相似度分数R_vision。
  • 但仅仅有视觉分是不够的。为了让模型学得更好,研究者设计了混合奖励函数 (Hybrid Reward Design)
  • 视觉相似度奖励 (R_vision):核心奖励,分数越高奖励越大。
  • 格式正确性奖励 (R_format):代码能否跑通?思考和工具调用的格式对不对?如果出错,直接给予惩罚。
  • 工具使用奖励 (R_tool):为了鼓励模型探索和使用反馈循环,每次成功的工具调用都会获得少量奖励,直到模型表现得足够好(视觉分超过 0.95)或达到最大次数。

这三个奖励通过加权组合(R = w_v * R_vision + w_f * R_format + w_t * R_tool),构成最终的驱动力。

最后一步:GRPO 算法优化

  • 有了精确的奖励信号,如何高效地更新模型?RRVF 采用了GRPO(Group Relative Policy Optimization)算法。相比传统的 PPO,GRPO 更高效,它不需要一个独立的价值函数,而是通过对一组(论文中是 8 个)候选答案进行比较和打分,直接优化策略。

这个设计,完美地将一个复杂的「代码生成」任务,转化成了一个极易被验证(视觉相似度)和优化(混合奖励 + GRPO)的工程问题。

图 4:迭代推理的 case,模型一步步学会如何准确重建一张饼图

实验结果:验证的力量,让 7B 模型超越 72B 老师

RRVF 的实验结果,有力地证明了「验证者法则」的力量。模型基于Qwen2.5-VL-7B进行训练,并在图表生成(ChartMimic, Plot2Code)和网页生成(WebSight)三个数据集上进行了全面评测。

1. 性能碾压:SFT 学的是「模仿」,RRVF 学的是「理解」

在 ChartMimic 上,传统的监督微调(SFT)虽然有标准代码答案,但执行率只有 69.00%。而 RRVF 在没有任何代码答案的情况下,代码执行率达到了97.83%,在其他各项指标上均有明显提升。这证明了 RRVF 真正理解了图像的结构,而非死记硬背。

2. 「学生」超越「老师」:自学习效应的惊人体现

出乎意料的是,通过 RRVF 训练的 7B 模型,最终的综合得分(64.36)不仅远超其基础模型(38.17),甚至超越了在训练中为它提供反馈和评分的、更强大的 72B 模型(47.30)。这证明 RRVF 不是简单的知识蒸馏,而是让模型在自我探索中发现了比「老师」更优的策略,实现了能力的「进化」。

3. 泛化能力:真学霸从不畏惧新考卷

为了考验模型是否真的学到了通用能力,研究者在未训练的 Plot2Code 数据集上进行了零样本测试。结果显示,SFT 模型性能急剧下降(例如执行率从 69% 暴跌至 49%),暴露出其「偏科」和「过拟合」的本质。

相比之下,RRVF 模型的执行率几乎没有衰减(例如执行率从 97.83% 稳定在 96.21%)。这强有力地证明,通过视觉反馈学习到的,是可迁移的、底层的视觉到代码的生成逻辑。

这项研究是「验证者法则」的一次响亮宣告。它告诉我们,未来 AI 发展的瓶颈,可能不在于模型本身有多大,而在于我们能否为 AI 想解决的任务,设计出足够简单、高效的「验证环境」。

一旦我们学会了如何将复杂问题转化为易于验证的问题,那么正如 Jason Wei 所预言的,一个智能的「锯齿状前沿」将会出现:在所有可被清晰验证的领域,AI 将展现出超乎想象的强大能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
带娃出国的中产后悔了:想回来,但回国失败

带娃出国的中产后悔了:想回来,但回国失败

视觉志
2026-03-24 10:36:13
59岁巩俐身材引热议,外套都快撑不住丰腴身材了,却被夸少女体态

59岁巩俐身材引热议,外套都快撑不住丰腴身材了,却被夸少女体态

一盅情怀
2026-03-16 16:52:57
伊朗导弹越打越准,美国CEO急眼乱咬中国,北斗岂容他说破就破

伊朗导弹越打越准,美国CEO急眼乱咬中国,北斗岂容他说破就破

过期少女致幻录
2026-03-27 06:12:19
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
拉里贾尼继任者不到一天被杀,川普加派82空降师开赴中东

拉里贾尼继任者不到一天被杀,川普加派82空降师开赴中东

移光幻影
2026-03-26 09:56:37
航班在美国发生事故后加拿大航空公司CEO仅用英语发表讲话,加总理批:我非常失望

航班在美国发生事故后加拿大航空公司CEO仅用英语发表讲话,加总理批:我非常失望

环球网资讯
2026-03-26 18:26:42
联大上百国交锋,美以获压倒性失败,中俄行动后,朝韩也战线一致

联大上百国交锋,美以获压倒性失败,中俄行动后,朝韩也战线一致

Ck的蜜糖
2026-03-27 00:22:06
女人最“下头”的肢体试探,碰一次就凉透

女人最“下头”的肢体试探,碰一次就凉透

新时代的两性情感
2026-03-27 04:42:15
索尼本田合作造车,倒在了量产前一步

索尼本田合作造车,倒在了量产前一步

澎湃新闻
2026-03-26 20:56:35
经常散步能保护心脏?医生:心脏“喜欢”3种运动,平时要多做

经常散步能保护心脏?医生:心脏“喜欢”3种运动,平时要多做

垚垚分享健康
2026-03-26 17:22:33
被抓后家中查出20吨黄金?秘密移民国外?赵本山身上的谣言太离谱

被抓后家中查出20吨黄金?秘密移民国外?赵本山身上的谣言太离谱

潮鹿逐梦
2026-03-24 17:58:35
钧达股份:公司目前暂无可耐受200摄氏度高温、适配月球等太空极端环境的太阳能发电产品

钧达股份:公司目前暂无可耐受200摄氏度高温、适配月球等太空极端环境的太阳能发电产品

每日经济新闻
2026-03-26 21:33:11
59岁黎明演唱会生图翻车,头秃腹凸脸肿,昔日男神被群嘲像酒保

59岁黎明演唱会生图翻车,头秃腹凸脸肿,昔日男神被群嘲像酒保

一娱三分地
2026-03-24 18:14:53
有网友在大冰直播间看到弹幕称张雪峰因心脏骤停离世,大冰随即回应:我下午就已得知此事,心情十分沉重

有网友在大冰直播间看到弹幕称张雪峰因心脏骤停离世,大冰随即回应:我下午就已得知此事,心情十分沉重

画夕
2026-03-26 01:20:12
3-1拿下陈熠,最后一个世乒赛名额到手,王艺迪笑到了最后

3-1拿下陈熠,最后一个世乒赛名额到手,王艺迪笑到了最后

眼界纵横
2026-03-26 23:25:59
iPhone半夜自动打电话,苹果官网发文回应

iPhone半夜自动打电话,苹果官网发文回应

界面新闻
2026-03-26 15:46:22
美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

爱吃醋的猫咪
2026-03-22 22:29:08
无解!姆巴佩嗖一下就甩开巴西后卫:2秒跑10米+挑射 连续7场破门

无解!姆巴佩嗖一下就甩开巴西后卫:2秒跑10米+挑射 连续7场破门

风过乡
2026-03-27 05:43:38
西安某建筑公司全方位崩塌!

西安某建筑公司全方位崩塌!

黯泉
2026-03-26 18:49:04
美国记者挖坑提问:万一台湾不想被统一怎么办?被中方精准反杀

美国记者挖坑提问:万一台湾不想被统一怎么办?被中方精准反杀

雪中风车
2026-02-23 19:34:34
2026-03-27 06:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:对伊朗能源设施空袭再推迟10天

头条要闻

特朗普:对伊朗能源设施空袭再推迟10天

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
本地
手机
房产
公开课

亲子要闻

要不我还是喝奶吧!

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

手机要闻

三星阔折叠渲染图曝光,Galaxy Z Fold 8宽屏版

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版