网易首页 > 网易号 > 正文 申请入驻

ATHENA将影响函数扩展到十亿参数VLA,313×加速筛选高价值数据

0
分享至



作者团队来自上海交通大学 RHOS李永露团队、同济大学 GEAI 实验室与上海创智学院,长期关注具身智能领域中的世界模型、数据管理与因果理解等方向。

具身智能正在进入数据 scaling 时代。Vision-Language-Action(VLA)模型让机器人可以从大规模示教数据(demonstrations)中学习更通用的操作策略。但对机器人 VLA 训练来说,数据并不总是越多越好:低质量数据可能会拖累模型性能,而每一条 demonstration 都意味着昂贵的人力采集、机器人运行,以及云端存储和训练成本。

因此,一个问题变得愈发重要:云端数据池中的每条机器人示教轨迹,究竟应该如何量化其价值?

为回答这一问题,来自上海交通大学、同济大学、上海创智学院、西安交通大学等机构的研究团队提出了 ATHENA:一种面向十亿参数级多任务 VLA 模型的数据筛选框架。该方法将影响函数(Influence Functions)扩展到十亿参数级的多任务机器人 VLA 微调,从因果层面估计每条 demonstration 对下游机器人任务成功率的影响,进而筛选出高价值数据。



  • 论文标题:ATHENA: Accelerated Multi-Task Heterogeneous Influence Functions for Robot Data Curation
  • 论文地址:https://arxiv.org/abs/2606.16208
  • 项目主页:
  • https://sii-quantum.github.io/ATHENA.github.io/

为什么需要评估机器人数据价值?

过去,机器人数据管理通常依赖人工经验,或轨迹长度、动作平滑度等启发式规则。这些方法衡量的大多是人类偏好的「数据外观质量」,缺乏与下游闭环任务表现之间的因果关联。

而影响函数提供了一种更原则化的思路:它试图低成本估计加入或移除某个训练样本前后,在下游闭环任务上的模型性能变化。换言之,它可以用更加因果化的方式回答一个关键问题:「如果保留或移除这条 demonstration,机器人最终表现会变好还是变差?」

但传统的影响函数往往面向小参数模型和单任务设计,难以直接用于十亿参数级的多任务机器人 VLA 上。一方面,逐样本梯度需要在巨大参数空间中计算和投影。对十亿参数级的 VLA 模型而言,这会带来不可接受的显存和时间开销。另一方面,多任务场景下如果只做全局排序,高梯度信号任务可能主导筛选结果,导致部分任务数据被过度丢弃。换句话说,ATHENA 要同时解决两个问题:算得动,以及选得准。



ATHENA:把影响函数推进到

十亿参数级别的多任务 VLA


ATHENA 的整体流程可以概括为:先用全量 demonstrations 微调 VLA,再执行评测收集模型的闭环评估轨迹(rollouts),随后计算每条训练 demonstration 对评测 rollouts 的因果影响,最后根据影响分数排序筛选,再重新联合微调模型。



具体来说,ATHENA 做了两件事:

第一,使用 Kronecker 结构压缩逐样本梯度,并通过随机截断加速稠密 Hessian 逆的近似。线性层权重梯度天然具有外积结构,ATHENA 不再显式构造完整参数梯度,而是分别投影输入激活和反向误差,再组合成低维特征。同时通过随机截断近似保留主要低秩子空间以降低复杂的 Hessian 求逆计算,从而使得在十亿级别 VLA 模型上的影响分数计算成为了可能。

第二,提出 Multitask Influence Interaction(MII)方案以避免多任务失衡问题。它分别估计每条 demonstration 对自身任务下游性能的局部影响(local-task influence),以及对其他任务下游性能的跨任务影响(cross-task influence),并结合两类影响进行排序。从而避免全局多任务排序时偏向强梯度任务,让筛选结果既保留自身任务内的关键样本,也考虑跨任务的全局交互影响。

计算效率:从 8054.6 到 25.7 GPU 小时

影响函数过去难以应用到具身 VLA 的核心原因之一就是计算成本。ATHENA 在这部分取得了非常明确的系统收益。

在 50 任务、约 560.5K timesteps 的设置下,未加速的投影影响函数流程需要约 8054.6 GPU 小时。ATHENA 将总耗时降低到了 25.7 GPU 小时,实现约 313.4 倍加速,使影响函数能够实际用于十亿参数级多任务 VLA 的数据管理。



实验结果:数据更少,反而更强

研究团队使用 JAX 版本的 pi 系列 VLA 模型展开实验。首先在 RoboTwin 2.0 仿真基准上,依照官方设置,包含 50 个任务和 2500 条 clean 配置下的 demonstrations,总计 9.34 小时、约 560.5K 个时间步,并考察 clean 和 randomized 两种评测环境。

结果显示,在保留 90% 的 demonstrations 后,ATHENA 在 clean / randomized 环境下 50 个任务的平均成功率分别达到 44.70% / 17.72%,高于全量数据微调的 43.42% / 15.44%。当只保留 50% demonstrations 时,ATHENA 仍然在 clean 环境中基本匹配全量训练,在 randomized 环境中超过全量训练,平均成功率达到 30.33%,高于全量训练的 29.43%。

在真实机器人实验中,研究团队基于 ALOHA 真实机器人平台设计了 6 个任务,包括简单任务:Pick Fruits、Wipe Board;中等任务:Stack Bowls、Box Return;困难任务:Seal Stamping、Shelf Retrieval。数据集包含 720 条高质量 demonstrations,总计 6.9 小时,每个任务均进行 25 次随机物体位置测试。



结果显示,单任务单独训练的 Single-100% 方案的平均成功率为 46.7%,而全量数据联合训练的 Joint-100% 提升到 60.0%。但 ATHENA 使用 66.7% 数据即可达到 68.0% 平均成功率,超过 Single-100% 和 Joint-100% 的全量数据训练,也明显优于 Random-66.7% 和人工先验偏好的 Oracle-66.7%。这说明,人类认为「看起来更优质」的数据,并不一定真正更有利于下游闭环策略表现。

可视化展示:



Pick Fruits



Wipe Board



Stack Bowls



Box Return



Seal Stamping



Shelf Retrieval

总结

ATHENA 回答了一个具身智能进入规模化阶段后无法绕开的问题:怎么量化每条 demonstration 对下游闭环任务的价值?

它把影响函数从 24M 参数级别的小模型、单任务范式推进到十亿参数 VLA、多任务联合训练范式;通过 Kronecker 梯度压缩和随机截断近似,把 50 任务影响函数计算从 8054.6 GPU 小时降到 25.7 GPU 小时;通过 MII 多任务影响建模,让数据管理既关注本任务贡献,也兼顾跨任务影响。实验结果表明,ATHENA 通过高效的数据管理方法,在使用「更少但更有价值的数据」的情况下,于仿真和真实机器人上都获得了更高回报。

而随着机器人数据规模日益增长,这种能够从因果角度高效评估数据价值的方案将变得愈发重要。ATHENA 不再仅依赖人类偏好或经验来判断数据质量,而是从下游闭环任务价值出发评估每条 demonstration,为大规模机器人数据筛选提供了一种可行思路。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰:本科已严重饱和的五个专业,1、临床医学,2、法学,3、计算机…考研是唯一出路!

张雪峰:本科已严重饱和的五个专业,1、临床医学,2、法学,3、计算机…考研是唯一出路!

二胡的岁月如歌
2026-07-02 20:56:53
德布劳内:只要我和卢卡库还在,我们就不会允许比利时沉沦

德布劳内:只要我和卢卡库还在,我们就不会允许比利时沉沦

懂球帝
2026-07-02 04:20:07
美联储加息,突变!黄金、白银,直线爆发!美股集体飘红

美联储加息,突变!黄金、白银,直线爆发!美股集体飘红

证券时报
2026-07-02 22:37:49
这才是本届世界杯真正“死亡之组”!F组之后,又1小组全军覆没

这才是本届世界杯真正“死亡之组”!F组之后,又1小组全军覆没

足球大腕
2026-07-02 13:44:29
2日凌晨美国大满贯四强出炉,3-1,3-1,国乒两连胜,王曼昱不容易

2日凌晨美国大满贯四强出炉,3-1,3-1,国乒两连胜,王曼昱不容易

南海浪花
2026-07-02 06:16:17
3-0横扫!赢球不可怕,可怕的是孙颖莎赛后这番话,低调且自信!

3-0横扫!赢球不可怕,可怕的是孙颖莎赛后这番话,低调且自信!

田先生篮球
2026-07-02 11:58:37
杰伦-布朗成为史上第二快被交易的FMVP

杰伦-布朗成为史上第二快被交易的FMVP

北青网-北京青年报
2026-07-02 19:52:02
詹姆斯下家最新进展!Shams:不急于决定 大概率勇士骑士热火3选1

詹姆斯下家最新进展!Shams:不急于决定 大概率勇士骑士热火3选1

醉卧浮生
2026-07-02 22:29:27
清华大学毕业照首排坐小孩 官方只默默删除却无回应

清华大学毕业照首排坐小孩 官方只默默删除却无回应

封面新闻
2026-07-02 17:12:41
孙俪在后台逮住杨紫,开口就问:拿了白玉兰,有新戏能不能推荐推荐我?杨紫接得飞快

孙俪在后台逮住杨紫,开口就问:拿了白玉兰,有新戏能不能推荐推荐我?杨紫接得飞快

陈意小可爱
2026-06-30 01:55:15
哈梅内伊葬礼后天举行 梅德韦杰夫将以普京特使身份出席 全国人大常委会副委员长何维将代表中方出席

哈梅内伊葬礼后天举行 梅德韦杰夫将以普京特使身份出席 全国人大常委会副委员长何维将代表中方出席

每日经济新闻
2026-07-02 17:18:25
现场上座率超99%!2026世界杯改写历史,48队赛制成最大商业胜利

现场上座率超99%!2026世界杯改写历史,48队赛制成最大商业胜利

热血体育社
2026-07-02 00:47:42
76人抢下布朗,勒布朗真要动心?

76人抢下布朗,勒布朗真要动心?

篮坛第一线
2026-07-03 00:36:28
定价直逼百万!全尺寸情感陪伴男性人形机器人比女性贵了11万,官方:功能完全一致

定价直逼百万!全尺寸情感陪伴男性人形机器人比女性贵了11万,官方:功能完全一致

可达鸭面面观
2026-07-01 22:21:03
悲情!塞内加尔全队痛哭:2-0被翻+吞点球绝杀 3个月前被剥夺冠军

悲情!塞内加尔全队痛哭:2-0被翻+吞点球绝杀 3个月前被剥夺冠军

风过乡
2026-07-02 07:13:03
全球票房第三的大片,藏在小平台已18天——这片子终于能“白嫖”了

全球票房第三的大片,藏在小平台已18天——这片子终于能“白嫖”了

队友祭天法力无边
2026-07-02 00:10:39
因祸得福?巴洛贡一张红牌,为美国球迷带来六万张披萨

因祸得福?巴洛贡一张红牌,为美国球迷带来六万张披萨

懂球帝
2026-07-02 12:08:07
兄弟,实体盘真的要没了

兄弟,实体盘真的要没了

奶凶的小霸王
2026-07-01 22:41:14
顶级球星的身体管理,到底有多卷?

顶级球星的身体管理,到底有多卷?

精彩OK
2026-07-02 20:53:29
白俄高层已经意识到,卢卡申科访华一旦"托孤",将改变俄乌大局

白俄高层已经意识到,卢卡申科访华一旦"托孤",将改变俄乌大局

离离言几许
2026-07-02 02:14:36
2026-07-03 01:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13419文章数 142686关注度
往期回顾 全部

科技要闻

马斯克不承认,但SpaceX就该造AI手机

头条要闻

多国元首和高官将参加哈梅内伊葬礼 莫迪受邀无法出席

头条要闻

多国元首和高官将参加哈梅内伊葬礼 莫迪受邀无法出席

体育要闻

韩国人,为什么恨透了洪明甫?

娱乐要闻

众星祝福祖国,曾沛慈原形毕露?

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

有纯电有增程 还有二代VLA支持 小鹏MONA L03预售价14.38万起

态度原创

房产
家居
教育
数码
军事航空

房产要闻

稀缺预警!海岸线200米+限墅令下,海南「绝版硬通货」来了!

家居要闻

传奇筑 日常诗

教育要闻

独家探秘!海淀这所人附系热门校,高中新楼长啥样?

数码要闻

套装629元起!大疆Mic Mini 2S发布:支持32bit内录、一拖四

军事要闻

美军“航母杀手”首次公开 此前从未展示

无障碍浏览 进入关怀版