网易首页 > 网易号 > 正文 申请入驻

港大团队推出新AI范式,打造自适应感知框架。

0
分享至

本文的共同第一作者为香港大学 InfoBodied AI 实验室的博士生孙力和吴杰枫,合作者为刘瑞哲,陈枫。通讯作者为香港大学数据科学研究院及电机电子工程系助理教授杨言超。InfoBodied AI 实验室近年来在 CVPR,ICML,Neurips,ICLR 等顶会上有多项代表性成果发表,与国内外知名高校,科研机构广泛开展合作。

  • 标题:HyperTASR: Hypernetwork-Driven Task-Aware Scene Representations for Robust Manipulation
  • 作者:Li Sun, Jiefeng Wu, Feng Chen, Ruizhe Liu, Yanchao Yang
  • 机构:The University of Hong Kong
  • 原文链接: https://arxiv.org/abs/2508.18802

出发点与研究背景

在具身智能中,策略学习通常需要依赖场景表征(scene representation)。然而,大多数现有多任务操作方法中的表征提取过程都是任务无关的(task-agnostic):

无论具身智能体要 “关抽屉” 还是 “堆积木”,系统提取的特征的方式始终相同(利用同样的神经网络参数)。

想象一下,一个机器人在厨房里,既要能精准抓取易碎的鸡蛋,又要能搬运重型锅具。传统方法让机器人用同一套 "眼光" 观察不同的任务场景,这会使得场景表征中包含大量与任务无关的信息,给策略网络的学习带来极大的负担。这正是当前具身智能面临的核心挑战之一。

这样的表征提取方式与人类的视觉感知差异很大 —— 认知科学的研究表明,人类会根据任务目标和执行阶段动态调整注意力,把有限的感知资源集中在最相关的物体或区域上。例如:找水杯时先关注桌面大范围区域;拿杯柄时又转向局部几何细节。

那么,具身智能体是否也可以学会 “具备任务感知能力的场景表征” 呢?

创新点与贡献

1. 提出任务感知场景表示框架

我们提出了 HyperTASR,这是一个用于提取任务感知场景表征的全新框架,它使具身智能体能够通过在整个执行过程中关注与任务最相关的环境特征来模拟类似人类的自适应感知。

2. 创新的超网络表示变换机制

我们引入了一种基于超网络的表示转换,它可以根据任务规范和进展状态动态生成适应参数,同时保持与现有策略学习框架的架构兼容性。

3. 兼容多种策略学习架构

无需大幅修改现有框架,即可嵌入到 从零训练的 GNFactor 和 基于预训练的 3D Diffuser Actor,显著提升性能。

4. 仿真与真机环境验证

在 RLBench 和真机实验中均取得了显著提升,验证了 HyperTASR 在不同表征下的有效性(2D/3D 表征,从零训练 / 预训练表征),并建立了单视角 manipulation 的新 SOTA。

HyperTASR 概述

在这项工作中,我们提出了 HyperTASR —— 一个基于超网络的任务感知场景表征框架。它的核心思想是:具身智能体在执行不同任务、处于不同阶段时,应该动态调整感知重点,而不是一直用一套固定的特征去看世界。

  • 动态调节:根据任务目标和执行阶段,实时生成表示变换参数,让特征随任务进展而不断适配。
  • 架构兼容:作为一个独立的模块,可以无缝嵌入现有的策略学习框架(如 GNFactor、3D Diffuser Actor)。
  • 计算分离:通过超网络建立 “任务上下文梯度流(task-contextual gradient)” 与 “状态相关梯度流(state- dependent gradient)” 的分离,大幅提升学习效率与表征质量。

换句话说,HyperTASR 让具身智能体在执行任务时,像人类一样 “看得更专注、更聪明”。

任务感知的场景表示 (Task-Aware Scene Representation)

传统的具身智能体操作任务(Manipulation)学习框架通常是这样的:

这种做法的局限在于:表征提取器始终是任务无关的。不管是 “关抽屉” 还是 “堆积木”,它提取的特征都一样。结果就是:大量无关信息被带入策略学习,既降低了策略学习的效率,也增加了不同任务上泛化的难度。

受到人类视觉的启发,我们提出在表征阶段就引入任务信息:

这样,场景表示能够随任务目标与执行阶段动态变化,带来三个好处:

  • 更专注:只保留与当前任务相关的特征
  • 更高效:过滤掉无关信息
  • 更自然:和人类逐步完成任务时的视觉注意模式一致

超网络驱动的任务条件化表示 (Hypernetwork-Driven Task-Conditional Representation)

HyperTASR 的详细结构如 Figure 2 所示。为了实现任务感知,我们在表征提取器后加入了一个 轻量级的自编码器:

其中:

引入自编码器的一大优势在于,自编码器适用于不同的场景表征形式(2D/3D 表征都有对应的自编码器),另外自编码器可以维持原来场景表征的形式,无须调整后续策略网络的结构。

这样,场景表征不仅会随任务不同而变化,也会在任务的执行过程中不断动态迁移。

这种设计的优势:

1. 梯度分离:任务上下文与状态相关信息在梯度传播中分离,增强可解释性和学习效率

2. 动态变换:不是简单加权,而是真正改变表征函数,使得表征更加灵活

实验验证

HyperTASR 的另一个优势是模块化、易集成。这种 “即插即用” 的设计让 HyperTASR 可以同时增强 从零训练和预训练 backbone 两类方法。我们分别把它嵌入到两类主流框架中进行验证:

1.GNFactor(从零训练):使用 3D volume 表征

2.3D Diffuser Actor(基于预训练):使用 2D backbone 提取特征再投影到 3D 点云

我们只使用了行为克隆损失(Behavior Cloning Loss)作为我们网络的训练损失。

仿真实验

在仿真环境 RLBench 中的 10 个任务上进行训练,实验结果如 Table 1 所示:

  • 集成到 GNFactor 后,在无需特征蒸馏模块的情况下(训练无需额外的监督信息),成功率超过基线方法 27%;
  • 集成到 3D Diffuser Actor 后,首次让单视角操作成功率突破 80%,刷新纪录。

在此基础上,我们进一步通过网络的梯度进行了注意力可视化:

从 Figure 3 中我们可以观察到:

  • 传统方法的注意力往往分散在背景和无关物体;
  • HyperTASR 的注意力始终集中在任务相关的物体上,并随着任务进度动态变化。

另外,我们进行了消融实验,证明了 HyperTASR 设计中,引入任务进展的合理性,以及证明了使用超网络相比于直接利用 Transformer 将任务信息融合到场景表征里,能够获得更大的性能提升。

真机实验

我们采用 Aloha 进行了真机 manipulation 实验。如 Table 2 所示,在 6 个实际任务中,HyperTASR 在仅每个任务 15 条示教样本的有限条件下达到了 51.1%,展示了在真实环境操作中的强泛化能力。

一些真机实验对比结果如下:

参考

[1] Ze, Yanjie, et al. "Gnfactor: Multi-task real robot learning with generalizable neural feature fields." Conference on robot learning. PMLR, 2023.

[2] Ke, Tsung-Wei, Nikolaos Gkanatsios, and Katerina Fragkiadaki. "3D Diffuser Actor: Policy Diffusion with 3D Scene Representations." Conference on Robot Learning. PMLR, 2025.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张伦硕估计挺后悔的,脑子正常一点的未婚男人,都不会娶她

张伦硕估计挺后悔的,脑子正常一点的未婚男人,都不会娶她

南万说娱26
2026-04-20 11:50:09
胯大的女生简直就是天选旗袍人,看王楚然就知道了

胯大的女生简直就是天选旗袍人,看王楚然就知道了

阿废冷眼观察所
2026-04-20 11:39:10
视频丨美伊停火仅剩两天 特朗普称将谈判 伊朗:不属实

视频丨美伊停火仅剩两天 特朗普称将谈判 伊朗:不属实

国际在线
2026-04-20 07:01:31
汪文斌夫妇罕见同框,汪夫人气质优雅,端庄温婉,太美了!

汪文斌夫妇罕见同框,汪夫人气质优雅,端庄温婉,太美了!

TVB的四小花
2026-04-19 21:26:23
英皇娱乐遭质疑!力捧张敬轩回内地被抵制,成都文旅紧急辟谣割席

英皇娱乐遭质疑!力捧张敬轩回内地被抵制,成都文旅紧急辟谣割席

萌神木木
2026-04-20 16:57:44
恒大超级蛀虫刘永灼:甚至比许家印还能揽财,狂烧千亿终落法网

恒大超级蛀虫刘永灼:甚至比许家印还能揽财,狂烧千亿终落法网

小曙说娱
2026-04-19 00:27:45
中美智库对话:特朗普访华 最关心的是什么?

中美智库对话:特朗普访华 最关心的是什么?

看看新闻Knews
2026-04-20 17:56:16
美伊其实已经打,大打还未知、但概率飙升,双方都想利用苍头下棋

美伊其实已经打,大打还未知、但概率飙升,双方都想利用苍头下棋

邵旭峰域
2026-04-20 16:20:03
机关事业单位“紧日子”来临,2026年起,这些费用一律不再报销

机关事业单位“紧日子”来临,2026年起,这些费用一律不再报销

复转这些年
2026-04-19 19:13:36
金正恩果然好牛:轻轻一个动作,狠狠镇住日本,解放军安心办大事

金正恩果然好牛:轻轻一个动作,狠狠镇住日本,解放军安心办大事

回京历史梦
2026-04-20 12:10:03
伊朗做出重大让步,同意开放一半海峡,交出浓缩铀也可以谈

伊朗做出重大让步,同意开放一半海峡,交出浓缩铀也可以谈

第一军情
2026-04-20 12:55:03
天啊!看到1987年春晚观众席的迟重瑞,才懂陈丽华为啥一见钟情

天啊!看到1987年春晚观众席的迟重瑞,才懂陈丽华为啥一见钟情

真的八卦小学弟
2026-04-12 00:30:12
国内或将逐渐停止肠镜检查?做检查对身体有影响?医生告诉您真相

国内或将逐渐停止肠镜检查?做检查对身体有影响?医生告诉您真相

健康科普365
2026-04-17 20:05:08
78岁带400万住养老院,儿子12年不闻不问,他升局长律师宣读遗嘱

78岁带400万住养老院,儿子12年不闻不问,他升局长律师宣读遗嘱

真实档案
2026-03-24 06:56:03
133号舰艇编队为何选择从这里进入太平洋?专家解读

133号舰艇编队为何选择从这里进入太平洋?专家解读

环球网资讯
2026-04-20 12:17:06
美政府将发布首批UFO文件

美政府将发布首批UFO文件

参考消息
2026-04-20 10:51:15
东方卫视杀疯了!40集国安大剧空降,全员颜值演技双杀

东方卫视杀疯了!40集国安大剧空降,全员颜值演技双杀

小椰的奶奶
2026-04-20 13:06:50
果然是有高人!你不是说“台湾有事,就是日本有事”吗?

果然是有高人!你不是说“台湾有事,就是日本有事”吗?

小熊看国际
2026-04-20 11:27:42
五大联赛首冠诞生!拜仁提前4轮夺冠,孔帕尼两连冠,连刷10纪录

五大联赛首冠诞生!拜仁提前4轮夺冠,孔帕尼两连冠,连刷10纪录

奥拜尔
2026-04-20 01:27:03
三姐妹,谁最漂亮

三姐妹,谁最漂亮

陈意小可爱
2026-04-20 17:38:12
2026-04-20 18:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12811文章数 142632关注度
往期回顾 全部

科技要闻

华为Pura90逆周期定价,4699元起,未涨价

头条要闻

小伙入职仅一天公司40多部手机集体"失灵" 警方提醒

头条要闻

小伙入职仅一天公司40多部手机集体"失灵" 警方提醒

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

鹿晗生日上热搜,被关晓彤撕下体面

财经要闻

月之暗面IPO迷局

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

艺术
教育
数码
游戏
本地

艺术要闻

王羲之《换鹅帖》尚在人间,惊艳无比!

教育要闻

突发!丘班真的要取消了?

数码要闻

华为MateBook 14鸿蒙版笔记本官宣搭载麒麟X90处理器

索尼大一统!PS6超全爆料:全兼容PS4/PS5 掌机超强

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

无障碍浏览 进入关怀版