网易首页 > 网易号 > 正文 申请入驻

北大新作EvoVLA:大幅降低机器人幻觉,长序列成功率暴涨10%

0
分享至

新智元报道

编辑:LRST

【新智元导读】具身智能的「ChatGPT时刻」还没到,机器人的「幻觉」却先来了?在需要几十步操作的长序列任务中,现有的VLA模型经常「假装在干活」,误以为任务完成。针对这一痛点,北京大学团队提出自进化VLA框架EvoVLA。该模型利用Gemini生成「硬负样本」进行对比学习,配合几何探索与长程记忆,在复杂任务基准Discoverse-L上将成功率提升了10.2%,并将幻觉率从38.5%大幅降至14.8%。

具身智能(Embodied AI)正处于爆发前夜。

从谷歌的 RT-X 到开源社区的 OpenVLA,通才机器人策略(Generalist Robot Policies)展现出了惊人的零样本泛化能力。然而,当我们将目光从简单的「抓取-放置」转向需要数十个步骤的长程操作任务(Long-horizon Manipulation)时,现有的 VLA 模型却暴露出一个尴尬的致命弱点:

它们学会了「作弊」。

在长序列任务中,VLA模型经常会出现一种被称为「阶段性幻觉」(Stage Hallucination)的现象。

简单来说,就是机器人「明明没做完,却以为自己做完了」。

例如,在搭建积木桥时,只要机械臂移动到了目标附近,即便方块滑落、没对齐或者根本没夹住,基于视觉语言模型(VLM)的评估系统往往会因为视觉上的相似性("看起来像是在操作"),给出一个很高的预测分数。

这种「高分低能」的现象,导致机器人自信地跳过当前步骤进入下一阶段,最终导致整个任务的崩溃。这就好比一个学生只写了「解:」字,就以为自己做完了整道大题。

针对这一痛点,来自北京大学的研究团队(第一作者:刘择霆,杨子达,指导老师:唐浩,张泽宇)提出了一种全新的自监督VLA框架EvoVLA。

论文链接: https://arxiv.org/abs/2511.16166v1

项目主页: https://aigeeksgroup.github.io/EvoVLA

代码仓库: https://github.com/AIGeeksGroup/EvoVLA

EvoVLA不仅在仿真环境中表现出色,更通过Sim2Real成功部署在真实机器人上,平均成功率达到54.6%,超越 OpenVLA-OFT 11.0个百分点。

EvoVLA框架总览与核心任务展示(Block Bridge, Stack, Cup Stacking)

该项目由北京大学唐浩课题组完成,第一作者为刘择霆,杨子达,张泽宇。

EvoVLA:AI教AI

让模型在「自省」中进化

为了治好机器人的「白日梦」,EvoVLA在OpenVLA-OFT的架构之上,引入了三个协同工作的核心模块,实现了一种自监督强化学习(SSRL)的闭环。

阶段对齐奖励(SAR):Gemini 老师的「错题集」

这是EvoVLA解决幻觉问题的杀手锏。

传统的奖励函数往往很稀疏(只有成功/失败),或者基于像素变化(容易被背景干扰)。

EvoVLA创造性地设计了一套数据引擎,利用强大的Gemini 2.5 Pro对演示视频进行语义理解和切分,生成了包含70+个阶段的详细描述。

更绝的是,为了防止模型「走捷径」,团队引入了三元组对比学习,特别是构建了「硬负样本」(Hard Negative)。

  • 正样本(Positive), 任务完成的准确描述(如「夹爪闭合且稳定抓取方块」)。

  • 负样本(Negative), 明显的失败状态。

  • 硬负样本(Hard Negative): 这是关键! 描述那些「差一点就成功」的状态(如「夹爪在目标附近但未接触」,或「抓住了错误的物体」)。

EvoVLA数据引擎,展示Gemini如何生成Positive, Negative和Hard Negative文本描述

通过这种方式,Gemini化身为「严厉的老师」,专门出这种易混淆的「陷阱题」给VLA模型做。模型被迫去学习区分「真正完成」和「看起来像完成」,从而获得密集的、语义一致的内在奖励信号。

基于姿态的物体探索(POE):告别像素干扰

机器人不仅要会判断对错,还要有探索未知的好奇心(Curiosity)。

传统的内在好奇心奖励通常基于像素预测误差——即「如果我看到的画面和预测的不一样,我就很兴奋」。

但在复杂的机器人场景中,影子的移动、光照的变化甚至背景的噪点都会带来巨大的预测误差,导致机器人像个好奇宝宝一样去探索无意义的视觉噪声。

EvoVLA提出了POE(Pose-Based Object Exploration),训练了一个轻量级的世界模型,不再预测图像像素,而是预测相对几何姿态(Gripper-Object Pose)。

这意味着机器人的好奇心被引导去探索「如何改变物体与夹爪的相对位置」(比如怎么旋转、怎么靠近),而非「图像像素变了多少」。

这使得探索过程极其高效,专注于操作任务本身的几何结构。

长程记忆机制(Long-Horizon Memory)

面对几十步的操作,机器人很容易「捡了芝麻丢了西瓜」。简单的平均或截断历史信息会导致灾难性遗忘。

EvoVLA并没有简单地压缩历史,而是采用了一种基于注意力的上下文选择(Context Selection)机制。

它从历史库中检索Top-K最相关的Token,并通过门控机制融合到当前状态和奖励中。

这就像人类在做复杂任务时,只回忆那些对当下决策有用的关键步骤(比如「刚才我已经拿到了A零件」),而不是事无巨细地回放整个人生录像。

Discoverse-L:长程操作的新基准

为了验证长程能力,团队并没有满足于简单的已有任务,而是提出了Discoverse-L基准测试,包含三个难度递增的任务:

1. Stack(堆叠): 18个阶段,不仅要叠高,还要精确对齐。

2. Jujube-Cup(红枣入杯): 19个阶段,涉及多物体交互。

3. Block Bridge(搭桥): 74个阶段! 需要放置两个桥墩并填充中间,极其考验长期规划和稳定性。

实验结果:SOTA级的提升

实验在仿真环境和真机上双线进行,结果令人振奋。

仿真环境碾压

在Discoverse-L基准上,EvoVLA 击败了包括Octo、OpenVLA、在内的一众强基准。

成功率:平均达到69.2%(相比最强基准OpenVLA-OFT的59.0%提升了10.2%)。

样本效率:达到50%成功率所需的训练步数减少了1.5倍。

幻觉消除:阶段幻觉率(HR)从38.5% 大幅降至14.8%。

EvoVLA在三个任务上对比OpenVLA等基线的成功率提升

Sim2Real真机泛化

在AIRBOT-Play机器人上的部署更加令人印象深刻,EvoVLA展示了极强的Sim2Real泛化能力。

特别是在一个从未见过的「堆叠+插入」(Stack with Insertion)任务中,通过少量的真机微调,EvoVLA达到了55.2%的成功率,比OpenVLA-OFT高出13.4%,甚至比最新的架构高出16.9%

机器人实际操作Block Bridge或Stack的过程

定性分析显示,基准模型经常在接触方块前就过早张开夹爪(幻觉导致),而EvoVLA则能精准地等到接触后才进行操作,动作极其稳定,仿佛真的「看懂」了任务。

结语

EvoVLA的出现,为解决VLA模型在长程任务中的可靠性问题提供了一个优雅的解法。

它证明了:更好的奖励设计(SAR)+ 更本质的探索机制(POE)+ 更聪明的记忆(Memory),可以让大模型在具身智能领域走得更远。

这种利用大语言模型(Gemini)来生成「错题集」从而反哺策略学习的「自我进化」范式,或许正是通往通用机器人自主学习的关键一步。

作者信息

刘择霆是青岛大学自动化学院控制工程在读硕士,师从葛树志院士(新加坡工程院院士)。研究方向聚焦于具身智能、RL4VLA、端侧VLA模型。曾参与多项科研项目,致力于构建通用机器人操作基础模型。

杨子达是北京大学光华管理学院管理科学与信息系统系在读博士,专注于推动"可解释的跨模态和具身智能"前沿研究。研究方向聚焦于具身智能、RL4VLA、3D导航、VLA模型的结构化推理与多模态认知计算,致力于构建兼具高层语义理解与底层精细控制的通用智能体框架。研究成果已应用于真实四足机器人与多模态情感分析系统。期待与同行共同探索下一代智能体的认知架构与工程实践。

张泽宇是Richard Hartley教授和Ian Reid教授指导的本科研究员。他的研究兴趣扎根于计算机视觉领域,专注于探索几何生成建模与前沿基础模型之间的潜在联系。张泽宇在多个研究领域拥有丰富的经验,积极探索人工智能基础和应用领域的前沿进展。

唐浩现任北京大学计算机学院助理教授 / 研究员、博士生导师、博雅和未名青年学者,入选国家级海外高水平人才计划。曾获国家优秀自费留学生奖学金,连续三年入选斯坦福大学全球前2%顶尖科学家榜单。他曾在美国卡耐基梅隆大学、苏黎世联邦理工学院、英国牛津大学和意大利特伦托大学工作和学习。长期致力于人工智能领域的研究,在国际顶级期刊与会议发表论文 100 余篇,相关成果被引用超过12000次。曾获ACM Multimedia最佳论文提名奖,现任ICLR 2026、ACL 2025、EMNLP 2025、ACM MM 2025领域主席及多个人工智能会议和期刊审稿人。更多信息参见个人主页: https://ha0tang.github.io/

参考资料:

[1] Liu Z, Yang Z, Zhang Z, et al. EvoVLA: Self-Evolving Vision-Language-Action Model[J]. arXiv preprint arXiv:2511.16166, 2025.

[2] Kim, M. J., et al. "OpenVLA: An open-source vision-language-action model". CoRL, 2025

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
性资源分配不均带来的性压抑已经变态如斯!

性资源分配不均带来的性压抑已经变态如斯!

黯泉
2026-06-03 21:09:03
美国拒绝俄罗斯表态

美国拒绝俄罗斯表态

杨兴文
2026-06-04 14:39:29
等待这名“清官”的,是比斩首更可怕的刑罚

等待这名“清官”的,是比斩首更可怕的刑罚

通往远方的路
2026-06-03 15:40:46
刘亦菲素颜参加北电毕业20周年同学聚会,这张脸太权威了,尽管刘亦菲站在角落里,没有刻意的打扮自己,也是最美的存在

刘亦菲素颜参加北电毕业20周年同学聚会,这张脸太权威了,尽管刘亦菲站在角落里,没有刻意的打扮自己,也是最美的存在

牛油果生活观
2026-06-04 18:51:48
豪宅内40万名牌包被盗 窃贼身份让失主大呼意外

豪宅内40万名牌包被盗 窃贼身份让失主大呼意外

看看新闻Knews
2026-06-04 17:54:43
给所有老年人一个忠告:永远不要在熟人面前和老年群里说这两句话

给所有老年人一个忠告:永远不要在熟人面前和老年群里说这两句话

心理观察局
2026-06-04 07:19:04
两子非亲生姜洪涛发声,前妻照片流出风韵犹存,大儿子要起诉网友

两子非亲生姜洪涛发声,前妻照片流出风韵犹存,大儿子要起诉网友

壹月情感
2026-06-03 19:42:37
世界杯I组成死亡之组,哈兰德姆巴佩生死对决

世界杯I组成死亡之组,哈兰德姆巴佩生死对决

林子说事
2026-06-04 17:06:10
频繁出入赌场却从不赌博,3个月非法买卖外汇588次,男子被判刑并处罚金6万元

频繁出入赌场却从不赌博,3个月非法买卖外汇588次,男子被判刑并处罚金6万元

极目新闻
2026-06-04 14:28:05
谷歌计划释放3200万只蚊子,利用不育雄蚊减少蚊子总数量

谷歌计划释放3200万只蚊子,利用不育雄蚊减少蚊子总数量

现代快报
2026-06-04 17:32:39
“一个月5次,超过按50万一次收费!她被誉为“亚洲第一美人”

“一个月5次,超过按50万一次收费!她被誉为“亚洲第一美人”

阿振观点
2026-06-04 12:21:23
德国首次落选 默茨执政一年遭遇内外双重“滑铁卢”

德国首次落选 默茨执政一年遭遇内外双重“滑铁卢”

上游新闻
2026-06-04 19:56:20
油价将于今晚大幅调整

油价将于今晚大幅调整

深圳晚报
2026-06-04 10:28:01
奚梦瑶父亲凭仪态火出圈:178超模被衬成小鸟依人?她爸啥来头

奚梦瑶父亲凭仪态火出圈:178超模被衬成小鸟依人?她爸啥来头

新金牌娱乐观察家
2026-06-04 10:43:53
快讯!台湾萧旭岑发声了!

快讯!台湾萧旭岑发声了!

故事终将光明磊落
2026-06-04 18:52:45
痛心!浙江大一女生高珊珊去世,长的很漂亮,家属透露更多

痛心!浙江大一女生高珊珊去世,长的很漂亮,家属透露更多

小鋭有话说
2026-06-04 12:05:11
震惊!网传重庆一公司要求员工个人贷款,将资金转给公司“救急”

震惊!网传重庆一公司要求员工个人贷款,将资金转给公司“救急”

火山詩话
2026-06-04 15:12:33
郑丽文抵美不到24小时,鲁比奥突然承认现实,一句表态信息量很大

郑丽文抵美不到24小时,鲁比奥突然承认现实,一句表态信息量很大

邱震海
2026-06-03 21:05:03
入行前后判若两人,网约车司机活成这般模样

入行前后判若两人,网约车司机活成这般模样

网约车观察室
2026-06-03 21:41:43
广州92岁摆摊卖书的爷爷没有告诉过你的秘密:为病妻读故事,为追极光而远行

广州92岁摆摊卖书的爷爷没有告诉过你的秘密:为病妻读故事,为追极光而远行

潇湘晨报
2026-06-04 20:17:19
2026-06-04 21:28:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15385文章数 66903关注度
往期回顾 全部

科技要闻

历史最大IPO!马斯克下周冲击万亿富豪

头条要闻

92岁老人地铁口摆摊卖书 给病妻翻译的故事成其代表作

头条要闻

92岁老人地铁口摆摊卖书 给病妻翻译的故事成其代表作

体育要闻

欧冠决赛躺赢?他也曾是大巴黎的英雄

娱乐要闻

难怪奚梦瑶能嫁入豪门

财经要闻

SpaceX发行价135美元 6月12日上市交易

汽车要闻

北京现代5月销量强势反弹:国内17065辆 出口环比翻倍

态度原创

教育
本地
游戏
亲子
公开课

教育要闻

绵阳唯一!绵中学子入选2026年中国女子数奥四川省队

本地新闻

用杨柳青年画的方式,打开天津

官方确认《漫威金刚狼》纯线性!没有开放世界和蜘蛛侠

亲子要闻

科普丨宝宝人生第一场“考试”:听力筛查,您准备好了吗

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版