网易首页 > 网易号 > 正文 申请入驻

港大团队推出新AI范式,打造自适应感知框架。

0
分享至



本文的共同第一作者为香港大学 InfoBodied AI 实验室的博士生孙力和吴杰枫,合作者为刘瑞哲,陈枫。通讯作者为香港大学数据科学研究院及电机电子工程系助理教授杨言超。InfoBodied AI 实验室近年来在 CVPR,ICML,Neurips,ICLR 等顶会上有多项代表性成果发表,与国内外知名高校,科研机构广泛开展合作。


https://mp.weixin.qq.com/s/0wE3K6bMR--LiubKs5ucIA

  • 标题:HyperTASR: Hypernetwork-Driven Task-Aware Scene Representations for Robust Manipulation
  • 作者:Li Sun, Jiefeng Wu, Feng Chen, Ruizhe Liu, Yanchao Yang
  • 机构:The University of Hong Kong
  • 原文链接: https://arxiv.org/abs/2508.18802

出发点与研究背景

在具身智能中,策略学习通常需要依赖场景表征(scene representation)。然而,大多数现有多任务操作方法中的表征提取过程都是任务无关的(task-agnostic):

无论具身智能体要 “关抽屉” 还是 “堆积木”,系统提取的特征的方式始终相同(利用同样的神经网络参数)。

想象一下,一个机器人在厨房里,既要能精准抓取易碎的鸡蛋,又要能搬运重型锅具。传统方法让机器人用同一套 "眼光" 观察不同的任务场景,这会使得场景表征中包含大量与任务无关的信息,给策略网络的学习带来极大的负担。这正是当前具身智能面临的核心挑战之一。

这样的表征提取方式与人类的视觉感知差异很大 —— 认知科学的研究表明,人类会根据任务目标和执行阶段动态调整注意力,把有限的感知资源集中在最相关的物体或区域上。例如:找水杯时先关注桌面大范围区域;拿杯柄时又转向局部几何细节。

那么,具身智能体是否也可以学会 “具备任务感知能力的场景表征” 呢?



创新点与贡献

1. 提出任务感知场景表示框架

我们提出了 HyperTASR,这是一个用于提取任务感知场景表征的全新框架,它使具身智能体能够通过在整个执行过程中关注与任务最相关的环境特征来模拟类似人类的自适应感知。

2. 创新的超网络表示变换机制

我们引入了一种基于超网络的表示转换,它可以根据任务规范和进展状态动态生成适应参数,同时保持与现有策略学习框架的架构兼容性。

3. 兼容多种策略学习架构

无需大幅修改现有框架,即可嵌入到 从零训练的 GNFactor 和 基于预训练的 3D Diffuser Actor,显著提升性能。

4. 仿真与真机环境验证

在 RLBench 和真机实验中均取得了显著提升,验证了 HyperTASR 在不同表征下的有效性(2D/3D 表征,从零训练 / 预训练表征),并建立了单视角 manipulation 的新 SOTA。

HyperTASR 概述

在这项工作中,我们提出了 HyperTASR —— 一个基于超网络的任务感知场景表征框架。它的核心思想是:具身智能体在执行不同任务、处于不同阶段时,应该动态调整感知重点,而不是一直用一套固定的特征去看世界。

  • 动态调节:根据任务目标和执行阶段,实时生成表示变换参数,让特征随任务进展而不断适配。
  • 架构兼容:作为一个独立的模块,可以无缝嵌入现有的策略学习框架(如 GNFactor、3D Diffuser Actor)。
  • 计算分离:通过超网络建立 “任务上下文梯度流(task-contextual gradient)” 与 “状态相关梯度流(state- dependent gradient)” 的分离,大幅提升学习效率与表征质量。

换句话说,HyperTASR 让具身智能体在执行任务时,像人类一样 “看得更专注、更聪明”。

任务感知的场景表示 (Task-Aware Scene Representation)



传统的具身智能体操作任务(Manipulation)学习框架通常是这样的:





这种做法的局限在于:表征提取器始终是任务无关的。不管是 “关抽屉” 还是 “堆积木”,它提取的特征都一样。结果就是:大量无关信息被带入策略学习,既降低了策略学习的效率,也增加了不同任务上泛化的难度。

受到人类视觉的启发,我们提出在表征阶段就引入任务信息:



这样,场景表示能够随任务目标与执行阶段动态变化,带来三个好处:

  • 更专注:只保留与当前任务相关的特征
  • 更高效:过滤掉无关信息
  • 更自然:和人类逐步完成任务时的视觉注意模式一致

超网络驱动的任务条件化表示 (Hypernetwork-Driven Task-Conditional Representation)

HyperTASR 的详细结构如 Figure 2 所示。为了实现任务感知,我们在表征提取器后加入了一个 轻量级的自编码器:



其中:



引入自编码器的一大优势在于,自编码器适用于不同的场景表征形式(2D/3D 表征都有对应的自编码器),另外自编码器可以维持原来场景表征的形式,无须调整后续策略网络的结构。





这样,场景表征不仅会随任务不同而变化,也会在任务的执行过程中不断动态迁移。

这种设计的优势:

1. 梯度分离:任务上下文与状态相关信息在梯度传播中分离,增强可解释性和学习效率

2. 动态变换:不是简单加权,而是真正改变表征函数,使得表征更加灵活

实验验证

HyperTASR 的另一个优势是模块化、易集成。这种 “即插即用” 的设计让 HyperTASR 可以同时增强 从零训练和预训练 backbone 两类方法。我们分别把它嵌入到两类主流框架中进行验证:

1.GNFactor(从零训练):使用 3D volume 表征

2.3D Diffuser Actor(基于预训练):使用 2D backbone 提取特征再投影到 3D 点云

我们只使用了行为克隆损失(Behavior Cloning Loss)作为我们网络的训练损失。



仿真实验

在仿真环境 RLBench 中的 10 个任务上进行训练,实验结果如 Table 1 所示:

  • 集成到 GNFactor 后,在无需特征蒸馏模块的情况下(训练无需额外的监督信息),成功率超过基线方法 27%;
  • 集成到 3D Diffuser Actor 后,首次让单视角操作成功率突破 80%,刷新纪录。

在此基础上,我们进一步通过网络的梯度进行了注意力可视化:



从 Figure 3 中我们可以观察到:

  • 传统方法的注意力往往分散在背景和无关物体;
  • HyperTASR 的注意力始终集中在任务相关的物体上,并随着任务进度动态变化。

另外,我们进行了消融实验,证明了 HyperTASR 设计中,引入任务进展的合理性,以及证明了使用超网络相比于直接利用 Transformer 将任务信息融合到场景表征里,能够获得更大的性能提升。

真机实验

我们采用 Aloha 进行了真机 manipulation 实验。如 Table 2 所示,在 6 个实际任务中,HyperTASR 在仅每个任务 15 条示教样本的有限条件下达到了 51.1%,展示了在真实环境操作中的强泛化能力。



一些真机实验对比结果如下:



参考

[1] Ze, Yanjie, et al. "Gnfactor: Multi-task real robot learning with generalizable neural feature fields." Conference on robot learning. PMLR, 2023.

[2] Ke, Tsung-Wei, Nikolaos Gkanatsios, and Katerina Fragkiadaki. "3D Diffuser Actor: Policy Diffusion with 3D Scene Representations." Conference on Robot Learning. PMLR, 2025.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
官宣!300111,被立案调查

官宣!300111,被立案调查

中国基金报
2026-01-14 21:56:21
还有69万没赔!“教科书式耍赖”,最新进展

还有69万没赔!“教科书式耍赖”,最新进展

南方都市报
2026-01-14 09:15:55
艾滋病新增130万!很多人中招很冤枉!在外“5不碰”一定要记死

艾滋病新增130万!很多人中招很冤枉!在外“5不碰”一定要记死

今朝牛马
2025-12-31 19:31:04
雷军转发“诅咒”帖引巨大争议

雷军转发“诅咒”帖引巨大争议

电动知家
2026-01-13 10:04:15
六大部委释放四大关键信号 这些产业要飞

六大部委释放四大关键信号 这些产业要飞

中国能源网
2026-01-14 08:39:03
离婚3年后,31岁董子健再次官宣喜讯,已是孙怡高攀不起的存在!

离婚3年后,31岁董子健再次官宣喜讯,已是孙怡高攀不起的存在!

素衣读史
2026-01-14 14:06:44
以总理专机被爆料已离开以色列

以总理专机被爆料已离开以色列

环球网资讯
2026-01-14 19:04:03
中国已经做好最坏打算,如果俄罗斯战败,我国必须做好这三件事

中国已经做好最坏打算,如果俄罗斯战败,我国必须做好这三件事

舍长阿爷谈事
2026-01-15 01:42:13
特大新闻!中国4艘舰艇抵达美国家门口!俄:只有中国能让美沉默

特大新闻!中国4艘舰艇抵达美国家门口!俄:只有中国能让美沉默

爱吃醋的猫咪
2026-01-12 21:58:17
换帅如换刀!CBA 劲旅上演逆袭神话

换帅如换刀!CBA 劲旅上演逆袭神话

麦咪熊熊
2026-01-15 01:27:07
美国急了,日本也急了,西方国家发现中国的高科技实现了飞速发展

美国急了,日本也急了,西方国家发现中国的高科技实现了飞速发展

百态人间
2026-01-12 16:31:09
两位女神太美了,百看不厌,还有后面石头上的两个字陌生有谁认识

两位女神太美了,百看不厌,还有后面石头上的两个字陌生有谁认识

情感大头说说
2026-01-06 15:09:24
伊朗外长:伊朗不寻求战争,但已做好战争准备

伊朗外长:伊朗不寻求战争,但已做好战争准备

新华社
2026-01-12 16:51:04
何穗元旦首晒陈伟霆带娃合影!父子依偎超有安全感

何穗元旦首晒陈伟霆带娃合影!父子依偎超有安全感

瑛派儿老黄
2026-01-14 10:43:49
冲上热搜!皇马内讧爆发,阿隆索矛头直指三大巨星,错怪了姆巴佩

冲上热搜!皇马内讧爆发,阿隆索矛头直指三大巨星,错怪了姆巴佩

阿泰希特
2026-01-14 11:24:25
为啥说闫某晶即将断了明星们的财路,原因很简单

为啥说闫某晶即将断了明星们的财路,原因很简单

百态人间
2026-01-14 16:29:15
不要再说开除闫学晶军籍,取消正师级干部待遇了

不要再说开除闫学晶军籍,取消正师级干部待遇了

杰丝聊古今
2026-01-13 00:41:06
中央定调!退休新规实施,公务员和事业编制,不能弹性延迟退休吗

中央定调!退休新规实施,公务员和事业编制,不能弹性延迟退休吗

夜深爱杂谈
2026-01-13 20:50:30
事件升级!司晓迪晒开房记录,16个男顶流被锤!内娱彻底玩完

事件升级!司晓迪晒开房记录,16个男顶流被锤!内娱彻底玩完

大龄女一晓彤
2026-01-13 15:12:59
DeepSeek梁文锋喊话罗永浩:靠嘴年入过亿,为啥非得做科技?

DeepSeek梁文锋喊话罗永浩:靠嘴年入过亿,为啥非得做科技?

雷科技
2026-01-14 15:31:09
2026-01-15 03:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12117文章数 142536关注度
往期回顾 全部

科技要闻

携程因涉嫌垄断被市场监管总局调查

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

网红彭十六偷税被封杀 曾成功转型明星

财经要闻

携程被立案调查,最高或被罚超50亿

汽车要闻

曝Model Y或降到20万以内!

态度原创

本地
手机
家居
公开课
军事航空

本地新闻

邵阳公益诉讼检察主题曲:《守望星》

手机要闻

REDMI Turbo 5 MAX现身跑分,天玑9500s芯片加持

家居要闻

心之所向 现代建构之美

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

中东气氛愈发紧张 伊朗处于最高战备状态

无障碍浏览 进入关怀版