网易首页 > 网易号 > 正文 申请入驻

北大新作EvoVLA:大幅降低机器人幻觉,长序列成功率暴涨10%

0
分享至


新智元报道

编辑:LRST

【新智元导读】具身智能的「ChatGPT时刻」还没到,机器人的「幻觉」却先来了?在需要几十步操作的长序列任务中,现有的VLA模型经常「假装在干活」,误以为任务完成。针对这一痛点,北京大学团队提出自进化VLA框架EvoVLA。该模型利用Gemini生成「硬负样本」进行对比学习,配合几何探索与长程记忆,在复杂任务基准Discoverse-L上将成功率提升了10.2%,并将幻觉率从38.5%大幅降至14.8%。

具身智能(Embodied AI)正处于爆发前夜。

从谷歌的 RT-X 到开源社区的 OpenVLA,通才机器人策略(Generalist Robot Policies)展现出了惊人的零样本泛化能力。然而,当我们将目光从简单的「抓取-放置」转向需要数十个步骤的长程操作任务(Long-horizon Manipulation)时,现有的 VLA 模型却暴露出一个尴尬的致命弱点:

它们学会了「作弊」。

在长序列任务中,VLA模型经常会出现一种被称为「阶段性幻觉」(Stage Hallucination)的现象。

简单来说,就是机器人「明明没做完,却以为自己做完了」。

例如,在搭建积木桥时,只要机械臂移动到了目标附近,即便方块滑落、没对齐或者根本没夹住,基于视觉语言模型(VLM)的评估系统往往会因为视觉上的相似性("看起来像是在操作"),给出一个很高的预测分数。

这种「高分低能」的现象,导致机器人自信地跳过当前步骤进入下一阶段,最终导致整个任务的崩溃。这就好比一个学生只写了「解:」字,就以为自己做完了整道大题。

针对这一痛点,来自北京大学的研究团队(第一作者:刘择霆,杨子达,指导老师:唐浩,张泽宇)提出了一种全新的自监督VLA框架EvoVLA。


论文链接: https://arxiv.org/abs/2511.16166v1

项目主页: https://aigeeksgroup.github.io/EvoVLA

代码仓库: https://github.com/AIGeeksGroup/EvoVLA

EvoVLA不仅在仿真环境中表现出色,更通过Sim2Real成功部署在真实机器人上,平均成功率达到54.6%,超越 OpenVLA-OFT 11.0个百分点。


EvoVLA框架总览与核心任务展示(Block Bridge, Stack, Cup Stacking)

该项目由北京大学唐浩课题组完成,第一作者为刘择霆,杨子达,张泽宇。

EvoVLA:AI教AI

让模型在「自省」中进化

为了治好机器人的「白日梦」,EvoVLA在OpenVLA-OFT的架构之上,引入了三个协同工作的核心模块,实现了一种自监督强化学习(SSRL)的闭环。

阶段对齐奖励(SAR):Gemini 老师的「错题集」

这是EvoVLA解决幻觉问题的杀手锏。

传统的奖励函数往往很稀疏(只有成功/失败),或者基于像素变化(容易被背景干扰)。

EvoVLA创造性地设计了一套数据引擎,利用强大的Gemini 2.5 Pro对演示视频进行语义理解和切分,生成了包含70+个阶段的详细描述。

更绝的是,为了防止模型「走捷径」,团队引入了三元组对比学习,特别是构建了「硬负样本」(Hard Negative)。

  • 正样本(Positive), 任务完成的准确描述(如「夹爪闭合且稳定抓取方块」)。

  • 负样本(Negative), 明显的失败状态。

  • 硬负样本(Hard Negative): 这是关键! 描述那些「差一点就成功」的状态(如「夹爪在目标附近但未接触」,或「抓住了错误的物体」)。


EvoVLA数据引擎,展示Gemini如何生成Positive, Negative和Hard Negative文本描述

通过这种方式,Gemini化身为「严厉的老师」,专门出这种易混淆的「陷阱题」给VLA模型做。模型被迫去学习区分「真正完成」和「看起来像完成」,从而获得密集的、语义一致的内在奖励信号。

基于姿态的物体探索(POE):告别像素干扰

机器人不仅要会判断对错,还要有探索未知的好奇心(Curiosity)。

传统的内在好奇心奖励通常基于像素预测误差——即「如果我看到的画面和预测的不一样,我就很兴奋」。

但在复杂的机器人场景中,影子的移动、光照的变化甚至背景的噪点都会带来巨大的预测误差,导致机器人像个好奇宝宝一样去探索无意义的视觉噪声。

EvoVLA提出了POE(Pose-Based Object Exploration),训练了一个轻量级的世界模型,不再预测图像像素,而是预测相对几何姿态(Gripper-Object Pose)。

这意味着机器人的好奇心被引导去探索「如何改变物体与夹爪的相对位置」(比如怎么旋转、怎么靠近),而非「图像像素变了多少」。

这使得探索过程极其高效,专注于操作任务本身的几何结构。

长程记忆机制(Long-Horizon Memory)

面对几十步的操作,机器人很容易「捡了芝麻丢了西瓜」。简单的平均或截断历史信息会导致灾难性遗忘。

EvoVLA并没有简单地压缩历史,而是采用了一种基于注意力的上下文选择(Context Selection)机制。

它从历史库中检索Top-K最相关的Token,并通过门控机制融合到当前状态和奖励中。

这就像人类在做复杂任务时,只回忆那些对当下决策有用的关键步骤(比如「刚才我已经拿到了A零件」),而不是事无巨细地回放整个人生录像。

Discoverse-L:长程操作的新基准

为了验证长程能力,团队并没有满足于简单的已有任务,而是提出了Discoverse-L基准测试,包含三个难度递增的任务:

1. Stack(堆叠): 18个阶段,不仅要叠高,还要精确对齐。

2. Jujube-Cup(红枣入杯): 19个阶段,涉及多物体交互。

3. Block Bridge(搭桥): 74个阶段! 需要放置两个桥墩并填充中间,极其考验长期规划和稳定性。

实验结果:SOTA级的提升

实验在仿真环境和真机上双线进行,结果令人振奋。

仿真环境碾压

在Discoverse-L基准上,EvoVLA 击败了包括Octo、OpenVLA、在内的一众强基准。

成功率:平均达到69.2%(相比最强基准OpenVLA-OFT的59.0%提升了10.2%)。

样本效率:达到50%成功率所需的训练步数减少了1.5倍。

幻觉消除:阶段幻觉率(HR)从38.5% 大幅降至14.8%。


EvoVLA在三个任务上对比OpenVLA等基线的成功率提升

Sim2Real真机泛化

在AIRBOT-Play机器人上的部署更加令人印象深刻,EvoVLA展示了极强的Sim2Real泛化能力。


特别是在一个从未见过的「堆叠+插入」(Stack with Insertion)任务中,通过少量的真机微调,EvoVLA达到了55.2%的成功率,比OpenVLA-OFT高出13.4%,甚至比最新的架构高出16.9%


机器人实际操作Block Bridge或Stack的过程

定性分析显示,基准模型经常在接触方块前就过早张开夹爪(幻觉导致),而EvoVLA则能精准地等到接触后才进行操作,动作极其稳定,仿佛真的「看懂」了任务。

结语

EvoVLA的出现,为解决VLA模型在长程任务中的可靠性问题提供了一个优雅的解法。

它证明了:更好的奖励设计(SAR)+ 更本质的探索机制(POE)+ 更聪明的记忆(Memory),可以让大模型在具身智能领域走得更远。

这种利用大语言模型(Gemini)来生成「错题集」从而反哺策略学习的「自我进化」范式,或许正是通往通用机器人自主学习的关键一步。

作者信息

刘择霆是青岛大学自动化学院控制工程在读硕士,师从葛树志院士(新加坡工程院院士)。研究方向聚焦于具身智能、RL4VLA、端侧VLA模型。曾参与多项科研项目,致力于构建通用机器人操作基础模型。

杨子达是北京大学光华管理学院管理科学与信息系统系在读博士,专注于推动"可解释的跨模态和具身智能"前沿研究。研究方向聚焦于具身智能、RL4VLA、3D导航、VLA模型的结构化推理与多模态认知计算,致力于构建兼具高层语义理解与底层精细控制的通用智能体框架。研究成果已应用于真实四足机器人与多模态情感分析系统。期待与同行共同探索下一代智能体的认知架构与工程实践。

张泽宇是Richard Hartley教授和Ian Reid教授指导的本科研究员。他的研究兴趣扎根于计算机视觉领域,专注于探索几何生成建模与前沿基础模型之间的潜在联系。张泽宇在多个研究领域拥有丰富的经验,积极探索人工智能基础和应用领域的前沿进展。

唐浩现任北京大学计算机学院助理教授 / 研究员、博士生导师、博雅和未名青年学者,入选国家级海外高水平人才计划。曾获国家优秀自费留学生奖学金,连续三年入选斯坦福大学全球前2%顶尖科学家榜单。他曾在美国卡耐基梅隆大学、苏黎世联邦理工学院、英国牛津大学和意大利特伦托大学工作和学习。长期致力于人工智能领域的研究,在国际顶级期刊与会议发表论文 100 余篇,相关成果被引用超过12000次。曾获ACM Multimedia最佳论文提名奖,现任ICLR 2026、ACL 2025、EMNLP 2025、ACM MM 2025领域主席及多个人工智能会议和期刊审稿人。更多信息参见个人主页: https://ha0tang.github.io/

参考资料:

[1] Liu Z, Yang Z, Zhang Z, et al. EvoVLA: Self-Evolving Vision-Language-Action Model[J]. arXiv preprint arXiv:2511.16166, 2025.

[2] Kim, M. J., et al. "OpenVLA: An open-source vision-language-action model". CoRL, 2025

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
原油飙涨!黄金、白银下跌,美股突变!特朗普威胁!霍尔木兹海峡,最新消息!

原油飙涨!黄金、白银下跌,美股突变!特朗普威胁!霍尔木兹海峡,最新消息!

证券时报e公司
2026-03-26 22:23:23
“两物不送人,子孙人上人”:这2样东西别送人,关系再好也不行

“两物不送人,子孙人上人”:这2样东西别送人,关系再好也不行

白浅娱乐聊
2026-03-17 17:13:11
演员朱珠疑似塌房?照片流出,惊呆网友!

演员朱珠疑似塌房?照片流出,惊呆网友!

大眼妹妹
2025-12-15 10:39:19
100只整装待发!量产机器狼“-20℃极寒测试”现场曝光

100只整装待发!量产机器狼“-20℃极寒测试”现场曝光

中国网
2026-03-26 15:55:11
6-2血洗欧冠德比!巴萨狂轰6球,皇马孤将双响难挡崩盘

6-2血洗欧冠德比!巴萨狂轰6球,皇马孤将双响难挡崩盘

林子说事
2026-03-26 09:42:20
德转列世预赛附加赛球队身价排行:意大利8.39亿欧居首

德转列世预赛附加赛球队身价排行:意大利8.39亿欧居首

懂球帝
2026-03-26 15:59:41
NBA正式扩军!狂砸100亿啊,再见,森林狼or灰熊,东部见

NBA正式扩军!狂砸100亿啊,再见,森林狼or灰熊,东部见

球童无忌
2026-03-26 11:34:27
5月起生效!俄罗斯关闸,8000吨黄金不卖了,全球金市变天

5月起生效!俄罗斯关闸,8000吨黄金不卖了,全球金市变天

瑛派儿老黄
2026-03-26 10:43:45
张靓颖“零透光”裙惊爆热搜,性感曲线令全场屏息,时尚女王?

张靓颖“零透光”裙惊爆热搜,性感曲线令全场屏息,时尚女王?

娱乐领航家
2025-10-28 22:00:07
美媒大胆预测:快船季后赛4-3胜骑士队

美媒大胆预测:快船季后赛4-3胜骑士队

刘笤说体坛
2026-03-27 00:09:38
1981年,彭真狱中见江青,江青出言不逊提出:我要见华国锋邓小平

1981年,彭真狱中见江青,江青出言不逊提出:我要见华国锋邓小平

微野谈写作
2026-01-27 06:00:03
以色列打不动了想停火,伊朗说不,47年的账,今天得好好算清

以色列打不动了想停火,伊朗说不,47年的账,今天得好好算清

花寒弦絮
2026-03-26 23:11:22
三分命中率64.1%,断层全联盟第一!郭士强该给他一个国家队名额

三分命中率64.1%,断层全联盟第一!郭士强该给他一个国家队名额

弄月公子
2026-03-26 11:03:13
德黑兰街头忽然空了:巴斯基帐篷被遗弃,民兵连夜跑了,为什么?

德黑兰街头忽然空了:巴斯基帐篷被遗弃,民兵连夜跑了,为什么?

老马拉车莫少装
2026-03-24 22:55:20
张雪峰遗产纷争的内幕!

张雪峰遗产纷争的内幕!

八卦疯叔
2026-03-26 11:05:04
太阳报:大量枪迷想抢票见证夺冠,西汉姆联严查主队看台购票

太阳报:大量枪迷想抢票见证夺冠,西汉姆联严查主队看台购票

懂球帝
2026-03-26 13:21:13
玄学提醒:如果一个人还在穿着10年前的衣服,只说明3个问题

玄学提醒:如果一个人还在穿着10年前的衣服,只说明3个问题

洞读君
2026-03-04 14:30:12
10万亿美债将要到期,早已资不抵债,美国财政部已经宣布破产?

10万亿美债将要到期,早已资不抵债,美国财政部已经宣布破产?

史行途
2026-03-26 14:06:29
101枚导弹砸向美国航母:伊朗打出了开战以来最强一拳

101枚导弹砸向美国航母:伊朗打出了开战以来最强一拳

闻识
2026-03-27 01:19:31
这就是钱学森后人真实的样貌,女儿定居美国,儿子长孙精忠报国!

这就是钱学森后人真实的样貌,女儿定居美国,儿子长孙精忠报国!

旧史新谭
2026-03-25 13:15:22
2026-03-27 02:00:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66720关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
健康
艺术
公开课
军事航空

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

转头就晕的耳石症,能开车上班吗?

艺术要闻

北京大兴机场和青岛胶东机场“撞脸”,长得像就是抄袭?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版