![]()
这项由四川大学、GigaAI以及清华大学联合开展的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604.08168,感兴趣的读者可通过该编号查阅完整原文。研究的核心成果是一个名为ViVa的系统——一个能让机器人通过"脑补未来画面"来判断当前动作好不好的价值评估模型。
**机器人为什么老是"不长眼"?**
你有没有见过那种在流水线上干活的机器人?它们动作精准、速度飞快,但偶尔也会犯一些在人类看来显而易见的错误:把零件放歪了却继续往下走,或者明明快要失败了还在按原计划执行。原因很简单——这些机器人缺乏一种能力,就是"在做事情的过程中随时判断自己当前的状态离成功还有多远"。
这种能力在强化学习领域被称为"价值函数"。通俗地说,就像一个经验丰富的老师傅站在旁边,随时给学徒的操作打分:这一步打了七十分,那一步只有三十分,快要搞砸了赶紧调整。有了这个"打分员",机器人才能通过不断试错来提升自己,而不是盲目地重复同样的动作。
目前主流的机器人学习框架,比如物理智能公司(Physical Intelligence)推出的π0.6,就依赖这样一个"打分系统"来帮助机器人学习复杂任务。但问题在于,现有的"打分员"用的都是那种只会看图说话的视觉语言模型(VLM)——它擅长描述"现在这张图里有什么",却不擅长理解"接下来会发生什么"。这就好比让一个只看过照片的人来评判一段舞蹈表演,他能告诉你舞者此刻的姿势是否优雅,但无法预判下一秒这个动作会不会导致摔跤。
正是这个核心缺陷,催生了ViVa的诞生。
**一、从"看图打分"到"预见未来再打分"**
研究团队在梳理现有方法的问题时,触及了一个根本性的洞察:为当前状态打分,本质上是一个关于"未来会怎样"的问题。如果你能预见到接下来五秒钟机器人的运动轨迹,你自然就能判断它现在的动作是在朝成功靠近还是在滑向失败。
这个想法把研究团队的目光引向了一类此前主要用于"生成视频"的模型——视频生成模型。这类模型的训练目标,就是根据当前的画面预测出接下来的画面序列,因此它天然地学会了大量关于物体如何运动、场景如何演变、动作如何展开的知识。换句话说,它脑子里装的不是一张张静止的照片,而是连续的、动态的"世界运作规律"。
研究团队于是提出了一个大胆的转换:把一个原本用来"生成未来视频"的模型,改造成一个用来"评估当前状态价值"的工具。这就是ViVa(Video-generative Value model,视频生成价值模型)的核心思路。
为了实现这个转换,团队选择了Wan2.2作为基础模型——这是阿里巴巴团队开源的一个高质量视频扩散模型,原本的用途是根据初始图像和文字描述生成后续视频帧。ViVa的做法是在不改动这个模型核心结构的前提下,为它扩展新的输入和输出能力,让它在"预测未来画面"的同时,还能输出一个代表"当前任务进展"的分数。
**二、ViVa的工作原理:一个会"脑补"的裁判**
要理解ViVa是怎么工作的,可以把它比作一位棋艺高超的裁判。这位裁判不仅看着棋盘上的现状,还会在脑子里快速推演接下来几步的走法,然后根据推演结果来判断当前局面是占优还是劣势。ViVa做的正是类似的事情,只不过棋盘变成了机器人操作台,棋子变成了机器人的手臂和零件。
在具体的技术实现上,ViVa把所有的信息——包括摄像头拍到的图像和机器人关节的位置角度——都转换成一种统一的"潜在帧"格式,这种格式就是视频生成模型内部用来处理图像的语言。具体来说,机器人有三个摄像头:左腕摄像头、右腕摄像头和俯视摄像头,这三路图像各自被压缩成一个潜在帧。机器人的本体感知数据(14个维度,包含手臂末端位置和关节角度)则被展开平铺成一个和图像帧相同大小的矩阵,而要预测的分数(一个0到1之间的数)则被广播填充成一个所有元素相同的矩阵。
在训练时,模型接收到的输入序列是:一个空白占位帧、当前的本体感知帧、三路摄像头图像帧,共五个"干净"的帧。然后模型需要预测两个目标:未来某个时刻(默认是50步之后)机器人的本体感知状态,以及当前时刻的价值分数。这两个目标帧在训练时被加上随机程度的噪声,模型的任务是通过去噪过程将它们还原出来。
这个去噪训练机制来自一种叫做"流匹配"(Flow Matching)的技术——通俗地说,就是在"纯噪声"和"正确答案"之间建立一条路径,让模型学会沿着这条路径逐步把噪声变成有意义的预测结果。在实际使用时,只需要一步去噪就能得到预测结果,速度相当快,每帧只需0.18秒。
研究团队还特别提到,他们尝试过同时让模型预测未来的视觉画面(也就是真正生成未来视频帧),但发现这会降低价值分数的预测精度。原因在于视觉生成和分数预测这两个任务的难度差异太大:前者需要模型花费大量精力去还原高维度的空间细节,而后者只需要一个简单的标量,两者在训练中会互相干扰。所以最终版本的ViVa只预测未来的本体感知数据和价值分数,不生成未来视频画面。
**三、如何定义"做得好不好":一个巧妙的打分机制**
一个打分系统要有效,首先需要明确"满分是什么"、"零分是什么"。研究团队为此设计了一套颇为精巧的奖励定义方式。
每一段机器人操作的演示数据,都会被标注一个最终结果:成功或失败。对于一段长度为T步的操作,每一步都会获得一个基础分1/T,这代表随着时间推移而自然积累的进度。到最后一步时,如果成功了,不额外加分;如果失败了,则加一个惩罚分1。
把所有步骤的分数从当前步加到最后一步,就得到了每一步的"累计回报"G_t。这个设计非常精妙:对于成功的操作,任意时刻的G_t落在0到1之间,而且越靠近终点值越小(因为剩余进度越来越少);对于失败的操作,G_t则落在1到2之间。这样一来,成功和失败的数值范围之间永远有一个宽度为1的间隔,无论是在操作的哪个阶段,模型都能清晰区分"这是在走向成功"还是"这是在走向失败",不会产生混淆。
这个分数就是ViVa预测的目标——经过归一化处理后的任务进度指标。通过在大量成功和失败的操作演示上进行训练,ViVa逐渐学会了"当机器人处于某种状态时,它大概率会走向成功还是失败,以及还剩多少路程要走"。
**四、三项真实世界任务的考验**
研究团队在真实机器人上设计了三项任务来检验ViVa的能力,这三项任务都涉及双臂协作,而且都属于那种"步骤繁琐、容错率低、稍有不慎就会功亏一篑"的操作。
第一项任务是折叠衬衫。机器人需要先把一件衬衫铺平,然后按顺序折入袖子、收拢侧边、进行纵向折叠,最后完成横向折叠,在200秒内把衬衫整齐叠放到指定区域。如果衬衫被缠绕损坏,或者折叠结构坍塌,就算失败。
第二项任务是装箱封箱。机器人需要拿起一件物品,放进一个半成型的纸板箱,然后折起侧面的翻盖,最终把盖子完全合上并让所有插扣互相锁紧,全程300秒内完成。物品掉落、箱子损坏、或者无法完全封口都算失败。
第三项任务是整理卷纸。机器人需要撕下一张纸、扔进垃圾桶,然后把剩余的松散纸端卷紧直到与纸卷齐平,最后贴上封口贴纸,同样在300秒内完成。撕得太多或者贴纸没贴好都算失败。
这三项任务的共同特点是:操作时间长、中间环节多、每个环节都可能出问题,而且很多关键时刻从视觉上看并不明显——比如插扣是否真的锁紧了,比如贴纸是否贴牢了,这些都需要机器人对自身动作的精细感知,而不只是对画面的视觉识别。
**五、ViVa与传统方法的正面对比**
为了公平评估ViVa的效果,研究团队把它嵌入了π*0.6框架中的RECAP流程——这是一套"带经验修正的强化学习"管线,需要价值模型来估计每一步操作的"优势值",从而指导策略的改进。团队把原本使用的VLM(视觉语言模型)价值函数替换成ViVa,其他所有组件保持不变,这样就能干净地对比两种价值模型的优劣。
在具体的图表对比中,研究团队选取了三个任务的代表性操作片段,绘制出价值曲线随时间的变化。
在装箱任务中,机器人出现了两次明显错误:一次是插入时角度偏了,一次是箱子悬空有掉落风险。在VLM的眼中,这两个时刻和其他时刻没有什么区别,价值曲线基本是单调上升的,对错误毫无反应。而ViVa在这两个时刻出现了清晰的急剧下降,就像一个敏感的裁判立刻察觉到了异常,准确地发出了"这步走错了"的信号。
在折叠衬衫任务中,VLM产生的价值曲线大部分时间是平的,偶尔出现一些与任务进展毫无关联的随机波动,就像一个心不在焉的观察者;而ViVa的价值曲线则稳步上升,在每个关键折叠步骤完成时都有对应的增加,准确反映了任务从初始状态走向完成状态的过程。
在卷纸任务中,两个关键里程碑——纸卷对齐和贴标签——在ViVa的曲线上体现为明显的跃升;而VLM对这两个时刻几乎没有反应,整条曲线像一条懒散的平线。
这种对比揭示了两种方法的根本差异:VLM看的是"此刻的画面长什么样",而ViVa理解的是"这个动作序列在走向哪里"。
**六、实际机器人测试:成功率从58%跳升到73%**
在真实机器人测试中,团队重点评估了最复杂的装箱任务,因为这个任务的操作周期长,对价值估计的依赖最强。
对比结果非常清晰:单纯依靠模仿学习的π0.5成功率为42%,研究团队自己开发的Gigabrain-0成功率提升到53%,把VLM价值模型接入RECAP管线后成功率达到58%,而把价值模型换成ViVa之后,成功率直接跳到了73%,每小时成功完成14个任务,是所有方案中最高的。
从42%到73%,这个提升幅度意味着什么?以每小时的产出来算,使用ViVa的机器人比纯模仿学习的机器人多完成了将近一倍的任务量。对于需要大规模部署机器人的工业场景来说,这种差距足以决定一条生产线的实际可用性。
在计算效率方面,ViVa表现也相当出色。VLM基线模型训练需要6个GPU天,每帧推理需要0.32秒;ViVa则只需要4个GPU天来训练,每帧推理0.18秒,比VLM快将近一半。在模型规格和部署成本都更占优的情况下,ViVa还能给出更准确的价值估计,这让它在实际应用中的吸引力大大增加。
**七、新物体、新场景:泛化能力的关键考验**
研究团队还做了一个格外有说服力的测试:让两个价值模型去评估一段从未在训练数据中出现过的操作——折叠裤子。
这是一个严苛的考验。VLM在这种情况下会怎样?它会发现裤子和之前训练时见过的衬衫、箱子、卷纸都不一样,然后开始"乱猜"——在折叠过程中价值曲线先是下滑,然后对一些关键动作完全没有反应,整条曲线充满了无规律的高频抖动,就像一个完全找不到北的裁判。
ViVa则表现得相当从容。整个折裤子操作有四个关键步骤:拿起并提升、把一条腿折向中心、折叠腰带部分、最终放置。在ViVa的价值曲线上,这四个时刻都对应着清晰的跃升,整条曲线平滑地从低到高,忠实地反映了任务的推进过程。
原因在于,ViVa的泛化能力来自它所使用的视频生成模型骨架——这个模型在训练时见过大量真实世界的视频,学会了物体如何运动、手如何抓握、形状如何在操作中改变等普遍性规律。这些规律不是针对某种特定物体的,而是关于"物理世界如何运作"的通用知识。正因如此,即使面对从未见过的物体,ViVa依然能从运动和形变的角度理解操作进展。
**八、消融实验:每个设计选择都有其道理**
研究团队还通过一系列对比实验,验证了ViVa中每个设计选择的必要性。
首先,他们对比了使用视频生成骨架和使用VLM骨架、但保持相同输入输出格式的两个版本。结果是,即使不加入本体感知预测,纯粹换用视频生成骨架就已经让价值曲线明显更平滑、更准确。这说明视频生成模型内在的时序建模能力确实比VLM更适合这类任务。
其次,他们对比了有没有加入"预测未来本体感知"这个辅助任务的两个版本。结果显示,加入这个辅助任务之后,ViVa在捕捉细微错误方面有显著提升——比如抓取失误、力量分配不均、过早松手、双臂不同步等,这些在纯视觉上难以察觉的问题,加上本体感知预测之后都能被准确感知到。这是因为预测未来的关节状态迫使模型内化机器人自身的运动规律,从而对"身体是否按预期在运动"这类问题更加敏感。
最后,他们测试了不同预测步数(K=25、50、75)的影响。K=25时预测步数太短,不足以平滑短暂的噪声,曲线抖动较多;K=75时预测太远,不确定性增大,反而遗漏了一些关键时刻;K=50则在稳定性和准确性之间取得了最佳平衡,因此被选为默认设置。
说到底,ViVa这项研究做的事情,本质上是在问一个古老的问题:如何让机器人不只是"看眼前",还能"想以后"?传统的方法是教机器人看照片认状态,但这就像让一个只会看剧照的人来评判一部电影——他能描述每一帧画面,但无法感受情节的走向。ViVa的做法是换一个更擅长"看动态、理解变化"的裁判,把对未来的预测内嵌到价值判断里,让评分本身就建立在"这条路会通向哪里"的预见之上。
这对普通人意味着什么?工厂里的装配机器人、医院里的辅助机器人、家庭里的服务机器人——所有这些需要完成复杂多步骤任务的机器人,都需要一个好的"裁判"来帮助它们从错误中学习。ViVa提供了一种更可靠的裁判机制,让机器人能更快地掌握复杂操作,出错时也能更准确地识别问题所在。
当然,这项研究也有其局限性。由于RECAP管线中每次策略评估的时间成本很高,团队只在装箱这一个任务上做了完整的真机对比实验,其他两个任务只有定性分析,缺乏数量化的成功率数据。规模更大的真机实验被留作未来工作。这意味着ViVa在更多类型任务上的表现,还有待进一步验证。
一个值得继续思考的问题是:如果一个机器人能越来越准确地预测自己的未来状态,它最终能不能发展出某种类似"自我意识"的东西——知道"我是谁、我在做什么、我下一步该怎样"?这当然是个有些哲学意味的问题,但技术的路径往往就是从这类朦胧的问题开始走向具体的答案的。
感兴趣深入了解这项研究的读者,可以通过arXiv:2604.08168查阅完整论文。
Q&A
Q1:ViVa是什么,它和普通机器人控制系统有什么区别?
A:ViVa是一个用于评估机器人操作质量的价值模型,由四川大学、GigaAI和清华大学联合开发。与传统方法不同,ViVa建立在视频生成模型的基础上,它不只分析机器人当前所处的状态画面,还会同时预测机器人未来的身体状态,再根据这种"预见"来给当前动作打分。传统的VLM(视觉语言模型)类打分系统只看静态图片,容易对操作错误不敏感;ViVa则因为理解动态时序,能在机器人犯错的瞬间给出精准反应。
Q2:ViVa在真实机器人测试中表现如何?
A:在装箱封箱这个真实机器人任务上,使用ViVa后机器人的成功率从基于VLM价值模型的58%提升到了73%,每小时完成任务数量也从11个增加到14个。同时,ViVa的训练时间(4个GPU天)比VLM基线(6个GPU天)减少了三分之一,每帧推理速度(0.18秒)也快于VLM(0.32秒)。在对之前从未见过的物体(折叠裤子)的测试中,ViVa依然能准确跟踪任务进展,而VLM则表现混乱。
Q3:ViVa为什么要预测机器人未来的关节状态,这有什么用?
A:预测未来本体感知(关节位置等数据)是ViVa的一个辅助训练任务。这个设计的作用有两层:首先,它迫使模型学习机器人自身的运动规律,让价值判断不只依赖视觉画面,还能感知"身体是否按预期在动";其次,当机器人出现抓取失误、力量不均、双臂不同步等视觉上难以察觉的问题时,通过比较预测的未来身体状态和实际情况,模型能更敏感地捕捉到这些细微错误。消融实验证实,去掉这个预测任务后,ViVa检测细微操作错误的能力明显下降。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.