四川大学与GigaAI联手，让机器人学会"预见未来"再做决策|实验|真实场景|gigaai

分享至

这项由四川大学、GigaAI以及清华大学联合开展的研究，以预印本形式发布于2026年4月，论文编号为arXiv:2604.08168，感兴趣的读者可通过该编号查阅完整原文。研究的核心成果是一个名为ViVa的系统——一个能让机器人通过"脑补未来画面"来判断当前动作好不好的价值评估模型。

**机器人为什么老是"不长眼"？**

你有没有见过那种在流水线上干活的机器人？它们动作精准、速度飞快，但偶尔也会犯一些在人类看来显而易见的错误：把零件放歪了却继续往下走，或者明明快要失败了还在按原计划执行。原因很简单——这些机器人缺乏一种能力，就是"在做事情的过程中随时判断自己当前的状态离成功还有多远"。

这种能力在强化学习领域被称为"价值函数"。通俗地说，就像一个经验丰富的老师傅站在旁边，随时给学徒的操作打分：这一步打了七十分，那一步只有三十分，快要搞砸了赶紧调整。有了这个"打分员"，机器人才能通过不断试错来提升自己，而不是盲目地重复同样的动作。

目前主流的机器人学习框架，比如物理智能公司（Physical Intelligence）推出的π0.6，就依赖这样一个"打分系统"来帮助机器人学习复杂任务。但问题在于，现有的"打分员"用的都是那种只会看图说话的视觉语言模型（VLM）——它擅长描述"现在这张图里有什么"，却不擅长理解"接下来会发生什么"。这就好比让一个只看过照片的人来评判一段舞蹈表演，他能告诉你舞者此刻的姿势是否优雅，但无法预判下一秒这个动作会不会导致摔跤。

正是这个核心缺陷，催生了ViVa的诞生。

**一、从"看图打分"到"预见未来再打分"**

研究团队在梳理现有方法的问题时，触及了一个根本性的洞察：为当前状态打分，本质上是一个关于"未来会怎样"的问题。如果你能预见到接下来五秒钟机器人的运动轨迹，你自然就能判断它现在的动作是在朝成功靠近还是在滑向失败。

这个想法把研究团队的目光引向了一类此前主要用于"生成视频"的模型——视频生成模型。这类模型的训练目标，就是根据当前的画面预测出接下来的画面序列，因此它天然地学会了大量关于物体如何运动、场景如何演变、动作如何展开的知识。换句话说，它脑子里装的不是一张张静止的照片，而是连续的、动态的"世界运作规律"。

研究团队于是提出了一个大胆的转换：把一个原本用来"生成未来视频"的模型，改造成一个用来"评估当前状态价值"的工具。这就是ViVa（Video-generative Value model，视频生成价值模型）的核心思路。

为了实现这个转换，团队选择了Wan2.2作为基础模型——这是阿里巴巴团队开源的一个高质量视频扩散模型，原本的用途是根据初始图像和文字描述生成后续视频帧。ViVa的做法是在不改动这个模型核心结构的前提下，为它扩展新的输入和输出能力，让它在"预测未来画面"的同时，还能输出一个代表"当前任务进展"的分数。

**二、ViVa的工作原理：一个会"脑补"的裁判**

要理解ViVa是怎么工作的，可以把它比作一位棋艺高超的裁判。这位裁判不仅看着棋盘上的现状，还会在脑子里快速推演接下来几步的走法，然后根据推演结果来判断当前局面是占优还是劣势。ViVa做的正是类似的事情，只不过棋盘变成了机器人操作台，棋子变成了机器人的手臂和零件。

在具体的技术实现上，ViVa把所有的信息——包括摄像头拍到的图像和机器人关节的位置角度——都转换成一种统一的"潜在帧"格式，这种格式就是视频生成模型内部用来处理图像的语言。具体来说，机器人有三个摄像头：左腕摄像头、右腕摄像头和俯视摄像头，这三路图像各自被压缩成一个潜在帧。机器人的本体感知数据（14个维度，包含手臂末端位置和关节角度）则被展开平铺成一个和图像帧相同大小的矩阵，而要预测的分数（一个0到1之间的数）则被广播填充成一个所有元素相同的矩阵。

在训练时，模型接收到的输入序列是：一个空白占位帧、当前的本体感知帧、三路摄像头图像帧，共五个"干净"的帧。然后模型需要预测两个目标：未来某个时刻（默认是50步之后）机器人的本体感知状态，以及当前时刻的价值分数。这两个目标帧在训练时被加上随机程度的噪声，模型的任务是通过去噪过程将它们还原出来。

这个去噪训练机制来自一种叫做"流匹配"（Flow Matching）的技术——通俗地说，就是在"纯噪声"和"正确答案"之间建立一条路径，让模型学会沿着这条路径逐步把噪声变成有意义的预测结果。在实际使用时，只需要一步去噪就能得到预测结果，速度相当快，每帧只需0.18秒。

研究团队还特别提到，他们尝试过同时让模型预测未来的视觉画面（也就是真正生成未来视频帧），但发现这会降低价值分数的预测精度。原因在于视觉生成和分数预测这两个任务的难度差异太大：前者需要模型花费大量精力去还原高维度的空间细节，而后者只需要一个简单的标量，两者在训练中会互相干扰。所以最终版本的ViVa只预测未来的本体感知数据和价值分数，不生成未来视频画面。

**三、如何定义"做得好不好"：一个巧妙的打分机制**

一个打分系统要有效，首先需要明确"满分是什么"、"零分是什么"。研究团队为此设计了一套颇为精巧的奖励定义方式。

每一段机器人操作的演示数据，都会被标注一个最终结果：成功或失败。对于一段长度为T步的操作，每一步都会获得一个基础分1/T，这代表随着时间推移而自然积累的进度。到最后一步时，如果成功了，不额外加分；如果失败了，则加一个惩罚分1。

把所有步骤的分数从当前步加到最后一步，就得到了每一步的"累计回报"G_t。这个设计非常精妙：对于成功的操作，任意时刻的G_t落在0到1之间，而且越靠近终点值越小（因为剩余进度越来越少）；对于失败的操作，G_t则落在1到2之间。这样一来，成功和失败的数值范围之间永远有一个宽度为1的间隔，无论是在操作的哪个阶段，模型都能清晰区分"这是在走向成功"还是"这是在走向失败"，不会产生混淆。

这个分数就是ViVa预测的目标——经过归一化处理后的任务进度指标。通过在大量成功和失败的操作演示上进行训练，ViVa逐渐学会了"当机器人处于某种状态时，它大概率会走向成功还是失败，以及还剩多少路程要走"。

**四、三项真实世界任务的考验**

研究团队在真实机器人上设计了三项任务来检验ViVa的能力，这三项任务都涉及双臂协作，而且都属于那种"步骤繁琐、容错率低、稍有不慎就会功亏一篑"的操作。

第一项任务是折叠衬衫。机器人需要先把一件衬衫铺平，然后按顺序折入袖子、收拢侧边、进行纵向折叠，最后完成横向折叠，在200秒内把衬衫整齐叠放到指定区域。如果衬衫被缠绕损坏，或者折叠结构坍塌，就算失败。

第二项任务是装箱封箱。机器人需要拿起一件物品，放进一个半成型的纸板箱，然后折起侧面的翻盖，最终把盖子完全合上并让所有插扣互相锁紧，全程300秒内完成。物品掉落、箱子损坏、或者无法完全封口都算失败。

第三项任务是整理卷纸。机器人需要撕下一张纸、扔进垃圾桶，然后把剩余的松散纸端卷紧直到与纸卷齐平，最后贴上封口贴纸，同样在300秒内完成。撕得太多或者贴纸没贴好都算失败。

这三项任务的共同特点是：操作时间长、中间环节多、每个环节都可能出问题，而且很多关键时刻从视觉上看并不明显——比如插扣是否真的锁紧了，比如贴纸是否贴牢了，这些都需要机器人对自身动作的精细感知，而不只是对画面的视觉识别。

**五、ViVa与传统方法的正面对比**

为了公平评估ViVa的效果，研究团队把它嵌入了π*0.6框架中的RECAP流程——这是一套"带经验修正的强化学习"管线，需要价值模型来估计每一步操作的"优势值"，从而指导策略的改进。团队把原本使用的VLM（视觉语言模型）价值函数替换成ViVa，其他所有组件保持不变，这样就能干净地对比两种价值模型的优劣。

在具体的图表对比中，研究团队选取了三个任务的代表性操作片段，绘制出价值曲线随时间的变化。

在装箱任务中，机器人出现了两次明显错误：一次是插入时角度偏了，一次是箱子悬空有掉落风险。在VLM的眼中，这两个时刻和其他时刻没有什么区别，价值曲线基本是单调上升的，对错误毫无反应。而ViVa在这两个时刻出现了清晰的急剧下降，就像一个敏感的裁判立刻察觉到了异常，准确地发出了"这步走错了"的信号。

在折叠衬衫任务中，VLM产生的价值曲线大部分时间是平的，偶尔出现一些与任务进展毫无关联的随机波动，就像一个心不在焉的观察者；而ViVa的价值曲线则稳步上升，在每个关键折叠步骤完成时都有对应的增加，准确反映了任务从初始状态走向完成状态的过程。

在卷纸任务中，两个关键里程碑——纸卷对齐和贴标签——在ViVa的曲线上体现为明显的跃升；而VLM对这两个时刻几乎没有反应，整条曲线像一条懒散的平线。

这种对比揭示了两种方法的根本差异：VLM看的是"此刻的画面长什么样"，而ViVa理解的是"这个动作序列在走向哪里"。

**六、实际机器人测试：成功率从58%跳升到73%**

在真实机器人测试中，团队重点评估了最复杂的装箱任务，因为这个任务的操作周期长，对价值估计的依赖最强。

对比结果非常清晰：单纯依靠模仿学习的π0.5成功率为42%，研究团队自己开发的Gigabrain-0成功率提升到53%，把VLM价值模型接入RECAP管线后成功率达到58%，而把价值模型换成ViVa之后，成功率直接跳到了73%，每小时成功完成14个任务，是所有方案中最高的。

从42%到73%，这个提升幅度意味着什么？以每小时的产出来算，使用ViVa的机器人比纯模仿学习的机器人多完成了将近一倍的任务量。对于需要大规模部署机器人的工业场景来说，这种差距足以决定一条生产线的实际可用性。

在计算效率方面，ViVa表现也相当出色。VLM基线模型训练需要6个GPU天，每帧推理需要0.32秒；ViVa则只需要4个GPU天来训练，每帧推理0.18秒，比VLM快将近一半。在模型规格和部署成本都更占优的情况下，ViVa还能给出更准确的价值估计，这让它在实际应用中的吸引力大大增加。

**七、新物体、新场景：泛化能力的关键考验**

研究团队还做了一个格外有说服力的测试：让两个价值模型去评估一段从未在训练数据中出现过的操作——折叠裤子。

这是一个严苛的考验。VLM在这种情况下会怎样？它会发现裤子和之前训练时见过的衬衫、箱子、卷纸都不一样，然后开始"乱猜"——在折叠过程中价值曲线先是下滑，然后对一些关键动作完全没有反应，整条曲线充满了无规律的高频抖动，就像一个完全找不到北的裁判。

ViVa则表现得相当从容。整个折裤子操作有四个关键步骤：拿起并提升、把一条腿折向中心、折叠腰带部分、最终放置。在ViVa的价值曲线上，这四个时刻都对应着清晰的跃升，整条曲线平滑地从低到高，忠实地反映了任务的推进过程。

原因在于，ViVa的泛化能力来自它所使用的视频生成模型骨架——这个模型在训练时见过大量真实世界的视频，学会了物体如何运动、手如何抓握、形状如何在操作中改变等普遍性规律。这些规律不是针对某种特定物体的，而是关于"物理世界如何运作"的通用知识。正因如此，即使面对从未见过的物体，ViVa依然能从运动和形变的角度理解操作进展。

**八、消融实验：每个设计选择都有其道理**

研究团队还通过一系列对比实验，验证了ViVa中每个设计选择的必要性。

首先，他们对比了使用视频生成骨架和使用VLM骨架、但保持相同输入输出格式的两个版本。结果是，即使不加入本体感知预测，纯粹换用视频生成骨架就已经让价值曲线明显更平滑、更准确。这说明视频生成模型内在的时序建模能力确实比VLM更适合这类任务。

其次，他们对比了有没有加入"预测未来本体感知"这个辅助任务的两个版本。结果显示，加入这个辅助任务之后，ViVa在捕捉细微错误方面有显著提升——比如抓取失误、力量分配不均、过早松手、双臂不同步等，这些在纯视觉上难以察觉的问题，加上本体感知预测之后都能被准确感知到。这是因为预测未来的关节状态迫使模型内化机器人自身的运动规律，从而对"身体是否按预期在运动"这类问题更加敏感。

最后，他们测试了不同预测步数（K=25、50、75）的影响。K=25时预测步数太短，不足以平滑短暂的噪声，曲线抖动较多；K=75时预测太远，不确定性增大，反而遗漏了一些关键时刻；K=50则在稳定性和准确性之间取得了最佳平衡，因此被选为默认设置。

说到底，ViVa这项研究做的事情，本质上是在问一个古老的问题：如何让机器人不只是"看眼前"，还能"想以后"？传统的方法是教机器人看照片认状态，但这就像让一个只会看剧照的人来评判一部电影——他能描述每一帧画面，但无法感受情节的走向。ViVa的做法是换一个更擅长"看动态、理解变化"的裁判，把对未来的预测内嵌到价值判断里，让评分本身就建立在"这条路会通向哪里"的预见之上。

这对普通人意味着什么？工厂里的装配机器人、医院里的辅助机器人、家庭里的服务机器人——所有这些需要完成复杂多步骤任务的机器人，都需要一个好的"裁判"来帮助它们从错误中学习。ViVa提供了一种更可靠的裁判机制，让机器人能更快地掌握复杂操作，出错时也能更准确地识别问题所在。

当然，这项研究也有其局限性。由于RECAP管线中每次策略评估的时间成本很高，团队只在装箱这一个任务上做了完整的真机对比实验，其他两个任务只有定性分析，缺乏数量化的成功率数据。规模更大的真机实验被留作未来工作。这意味着ViVa在更多类型任务上的表现，还有待进一步验证。

一个值得继续思考的问题是：如果一个机器人能越来越准确地预测自己的未来状态，它最终能不能发展出某种类似"自我意识"的东西——知道"我是谁、我在做什么、我下一步该怎样"？这当然是个有些哲学意味的问题，但技术的路径往往就是从这类朦胧的问题开始走向具体的答案的。

感兴趣深入了解这项研究的读者，可以通过arXiv:2604.08168查阅完整论文。

Q&A

Q1：ViVa是什么，它和普通机器人控制系统有什么区别？

A：ViVa是一个用于评估机器人操作质量的价值模型，由四川大学、GigaAI和清华大学联合开发。与传统方法不同，ViVa建立在视频生成模型的基础上，它不只分析机器人当前所处的状态画面，还会同时预测机器人未来的身体状态，再根据这种"预见"来给当前动作打分。传统的VLM（视觉语言模型）类打分系统只看静态图片，容易对操作错误不敏感；ViVa则因为理解动态时序，能在机器人犯错的瞬间给出精准反应。

Q2：ViVa在真实机器人测试中表现如何？

A：在装箱封箱这个真实机器人任务上，使用ViVa后机器人的成功率从基于VLM价值模型的58%提升到了73%，每小时完成任务数量也从11个增加到14个。同时，ViVa的训练时间（4个GPU天）比VLM基线（6个GPU天）减少了三分之一，每帧推理速度（0.18秒）也快于VLM（0.32秒）。在对之前从未见过的物体（折叠裤子）的测试中，ViVa依然能准确跟踪任务进展，而VLM则表现混乱。

Q3：ViVa为什么要预测机器人未来的关节状态，这有什么用？

A：预测未来本体感知（关节位置等数据）是ViVa的一个辅助训练任务。这个设计的作用有两层：首先，它迫使模型学习机器人自身的运动规律，让价值判断不只依赖视觉画面，还能感知"身体是否按预期在动"；其次，当机器人出现抓取失误、力量不均、双臂不同步等视觉上难以察觉的问题时，通过比较预测的未来身体状态和实际情况，模型能更敏感地捕捉到这些细微错误。消融实验证实，去掉这个预测任务后，ViVa检测细微操作错误的能力明显下降。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.