网易首页 > 网易号 > 正文 申请入驻

2D大模型赋能3D Affordance 预测,GEAL助力3D场景可交互区域识别

0
分享至

GEAL 由新加坡国立大学的研究团队开展,第一作者为博士生鲁东岳,通讯作者为该校副教授 Gim Hee Lee,团队其他成员还包括孔令东与黄田鑫博士。

主页:https://dylanorange.github.io/projects/geal/

论文:https://arxiv.org/abs/2412.09511

代码:https://github.com/DylanOrange/geal

在现实世界中,如何让智能体理解并挖掘 3D 场景中可交互的部位(Affordance)对于机器人操作与人机交互至关重要。所谓3D Affordance Learning,就是希望模型能够根据视觉和语言线索,自动推理出物体可供哪些操作、以及可交互区域的空间位置,从而为机器人或人工智能系统提供对物体潜在操作方式的理解。

与 2D 任务相比,3D 数据的获取与高精度标注通常更为困难且成本高昂,这使得大规模高质量的 3D 标注数据十分稀缺,也阻碍了模型在新物体或场景中的泛化。与此同时,现有 3D 多依赖几何与位置编码来表征空间结构,难以从外观语义中充分汲取上下文信息,因而在传感器不准、场景复杂或处理误差等情形下更易受到噪声影响,导致其鲁棒性不足,难以稳定应对真实环境中的多变挑战。

为克服标注与数据分布限制,一些工作尝试将 2D 视觉模型或大语言模型融入 3D 场景理解。但由于 3D 与 2D 的特征存在显著模态差异,以及受限于对空间几何关系与纹理细节的保留,直接对接往往导致可交互区域定位不准确或易受点云噪声的干扰,难以在真实复杂场景中保持鲁棒性和通用性。因此,如何充分利用大规模预训练的 2D 模型所蕴含的强大表征能力,同时兼顾 3D 模态下细节和结构信息的准确对齐,成为提升 3D Affordance Learning 效果的关键挑战。

针对上述问题,新加坡国立大学的研究团队提出了GEAL(Generalizable 3D Affordance Learning),无需额外收集与标注大规模 3D 数据,便可借助 2D 基础模型实现对 3D 场景中可交互区域的精确预测。具体而言,GEAL 首先利用 3D Gaussian Splatting 将稀疏点云转换为可在 2D 模型中处理的真实感渲染图,并通过跨模态一致性对齐(Cross-Modal Consistency Alignment)有效融合 2D 视觉与 3D 空间特征,显著提升模型对多种物体与场景的泛化能力。此外,团队还构建了针对真实场景扰动的全新基准数据集,全面评估模型的稳健性。实验结果表明,GEAL 无论在公共数据集还是各种噪声环境下,都显著优于现有方法,为通用且鲁棒的 3D Affordance Learning 提供了新思路。

目前,GEAL 已被 CVPR 2025 接收,论文、代码和模型权重均已公开。

2D-3D 跨模态对齐

完成 3D 可交互区域预测

如图所示,在 GEAL 的整体框架中,我们通过2D 分支 与 3D 分支的协同合作,将预训练 2D 模型的强语义表达能力注入到稀疏点云的三维世界中,并通过跨模态特征对齐来获得更强的鲁棒性与泛化能力。下面对各个关键步骤加以说明

利用 3D Gaussian Splatting 渲染稀疏点云,高效引入 2D 分支

考虑到三维数据通常存在采样稀疏、标注昂贵、遮挡严重等问题,我们在网络结构中单独设置了一个 2D 分支,借助在海量 2D 数据上预训练的视觉 backbone(如 DINOV2),获取包含丰富语义上下文与外观信息的多粒度图像特征,从而为后续的三维功能区域预测提供更具鲁棒性与泛化力的先验。由于该分支与 3D 分支并行存在,我们可在后期设计中灵活地融合并对齐 2D/3D 特征,避免简单拼接带来的模态失配。为了让预训练的 2D 模型充分 “看见” 三维场景的纹理与遮挡信息,GEAL 采用了 3D Gaussian Splatting 技术来渲染点云。具体而言,我们用可学习的高斯基元对每个三维点进行表示,并通过光栅化与 α- 混合在 2D 图像中生成具有深度、透明度与颜色信息的像素,从而获得更为平滑、逼真的二维视图。这些视图不仅能够为 2D 模型提供足以辨别纹理和轮廓的语义特征,还能在后续跨模态步骤中与点云的几何结构建立一一对应关系,为特征对齐打下基础。

跨模态特征对齐

在两条分支分别获得多尺度 2D/3D 特征后,GEAL 通过颗粒度自适应融合模块(Granularity-Adaptive Fusion Module, GAFM) 与一致性对齐模块(Consistency Alignment Module,CAM)实现语义与几何间的双向对齐。

颗粒度自适应融合模块

针对 2D 与 3D 在不同层级上所捕获的细节与全局信息,通过自适应权重聚合和文本引导的视觉对齐,将最相关的多粒度特征与用户指令相互融合。这样既能突出与功能需求紧密关联的目标局部,又确保对全局场景保持整体把握。

一致性对齐模块

基于 Gaussian Splatting 所构建的像素 - 点云映射,将 3D 分支提取的点云特征再度渲染至二维平面,与 2D 分支形成逐像素对应,然后通过一致性损失(如 L2 距离)使两者在同一空间区域的表征尽可能相似。这种策略能让 2D 分支的通用语义向 3D 分支扩散,同时也让 3D 分支在几何维度上对 2D 特征形成有益补充,最终实现更准确的可交互区域定位。

Corrupt Data Benchmark 评估鲁棒性

为了更全面地测试 GEAL 在真实干扰环境中的表现,我们基于常见的 PIAD 与 LASO 数据集,构建了包含多种扰动形式的Corrupt Data Benchmark。它涵盖局部或全局的随机丢失、噪声注入、尺度变化、抖动及旋转等多种干扰场景,模拟复杂感知条件下的真实挑战。实验结果表明,GEAL 在该基准上依然能够保持高精度与鲁棒性,印证了跨模态对齐对于三维功能区域预测在噪声环境中的关键价值。

通过以上几个核心环节,GEAL 成功将 2D 模型的强大语义理解与 3D 数据的空间几何细节有机结合,不仅免去了大规模 3D 标注数据的依赖,还显著提升了可交互区域预测的可靠性与泛化水平,为 3D Affordance Learning 迈向真实应用场景提供了新的技术思路。

实验结果

为评估 GEAL 在 3D 场景可交互区域预测上的整体表现,作者在主流数据集 PIAD 与 LASO 上进行了系统实验。结果显示,GEAL 相较现有最优方法均取得了更高分数,尤其在 unseen 类别测试中依然保持高准确率,证明其对未见过的物体形状与类别具备良好适应能力。这一优势主要得益于 2D 语义先验的充分利用,以及跨模态一致性带来的 2D-3D 特征对齐,使得模型能在几何细节与语义信息之间保持平衡。

为了模拟实际感知场景中的各种干扰,如传感器噪声、局部丢失或随机旋转等,作者还在新提出的 Corrupt Data Benchmark 上对 GEAL 进行了测试。结果表明,即便在高度不确定的环境下,GEAL 依然能够稳定预测可交互区域,展现出优异的鲁棒性。这主要归功于 2D 分支在大规模预训练模型中的抗干扰特性,以及与 3D 分支通过一致性约束实现的高效信息传递。

相比仅使用 2D 分支或 3D 分支的基础版本,融合双分支并加入 CAM 后,在未见类别和高噪声条件下的准确率均显著提升;进一步引入 GAFM 后,则在见类与未见类任务中同时提高精度与 IoU,说明多粒度特征融合对于捕捉局部细节和全局语义至关重要。

综上所述,多项实验结果与消融研究均验证了 GEAL 的有效性:该方法不仅在常规数据集上表现出卓越的精度与泛化能力,还能在真实干扰环境中保持稳健,展现出跨模态对齐与双分支架构在 3D 场景可交互区域预测中的强大潜力。

结论

综上所述,GEAL 通过双分支架构与 3D Gaussian Splatting 的巧妙结合,在不依赖大规模 3D 标注的情况下,充分挖掘了大规模 2D 预训练模型蕴含的丰富语义信息,实现了对 3D 场景可交互区域的精确预测。该成果为在机器人操作、增强现实和智能家居等领域中灵活、高效地获取三维可交互区域提供了新思路,对构建通用、稳健的 3D Affordance Learning 系统具有重要意义。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
直接改祖宗,哈萨克斯坦自称金帐汗国继承人,普京沉默,中亚变天

直接改祖宗,哈萨克斯坦自称金帐汗国继承人,普京沉默,中亚变天

墨羽怪谈
2026-06-01 15:52:18
徐帆回应离婚几个月后,68岁冯小刚再惹争议,养女徐朵成导火索!

徐帆回应离婚几个月后,68岁冯小刚再惹争议,养女徐朵成导火索!

乡野小珥
2026-05-18 08:58:28
再见,杨瀚森!9换1,开拓者掏空家底梭哈字母哥方案曝光

再见,杨瀚森!9换1,开拓者掏空家底梭哈字母哥方案曝光

体育新角度
2026-06-03 21:27:14
门店教唆用户无证骑车:反正交警追不上你 张雪怒了:关店 换新车

门店教唆用户无证骑车:反正交警追不上你 张雪怒了:关店 换新车

念洲
2026-06-04 09:40:07
《战神:劳菲》出现中国神明!跨神话体系超激战

《战神:劳菲》出现中国神明!跨神话体系超激战

游民星空
2026-06-03 12:05:27
「璐学」彻底火了!李小璐开卷国学文化赛道,被全网群嘲

「璐学」彻底火了!李小璐开卷国学文化赛道,被全网群嘲

雷科技
2026-06-01 16:20:18
中俄蒙天然气合作谈崩?中方不再对蒙古妥协,普京访华也没用

中俄蒙天然气合作谈崩?中方不再对蒙古妥协,普京访华也没用

暗香暗香
2026-06-03 16:49:13
蒋中正亲笔书写的任命状冲上热议!书法的好坏,永远意见不一?

蒋中正亲笔书写的任命状冲上热议!书法的好坏,永远意见不一?

书画相约
2026-06-01 07:23:51
夺冠仅2天!樊振东抵达杜塞尔多夫训练!萨尔布吕肯经理:他的离开,我非常伤心!

夺冠仅2天!樊振东抵达杜塞尔多夫训练!萨尔布吕肯经理:他的离开,我非常伤心!

好乒乓
2026-06-03 19:01:22
广东女教师被家长6次投诉最新进展,被说脾气大嫁不出去

广东女教师被家长6次投诉最新进展,被说脾气大嫁不出去

九方鱼论
2026-06-04 05:57:29
历史性耻辱一败!0-3脆败最弱捷克,女排遮羞布彻底被撕碎

历史性耻辱一败!0-3脆败最弱捷克,女排遮羞布彻底被撕碎

金毛爱女排
2026-06-04 09:28:36
郑裕彤家族爆雷!紧急抛售百亿资产

郑裕彤家族爆雷!紧急抛售百亿资产

新浪财经
2026-06-04 03:51:04
乌克兰相关人士表示,通过军事手段恢复乌克兰1991年边界是可能的

乌克兰相关人士表示,通过军事手段恢复乌克兰1991年边界是可能的

山河路口
2026-06-03 14:26:05
直言不讳!英伟达CEO黄仁勋称:台湾缺电!国台办回应来了……

直言不讳!英伟达CEO黄仁勋称:台湾缺电!国台办回应来了……

王爷说图表
2026-06-03 17:21:34
1-3遭逆转,世界第6遭世界第14掀翻,无缘法网男单四强

1-3遭逆转,世界第6遭世界第14掀翻,无缘法网男单四强

侧身凌空斩
2026-06-04 07:03:28
"三哥,你尾款我不要了!"中国外贸人反杀印度老赖,招招绝了!

"三哥,你尾款我不要了!"中国外贸人反杀印度老赖,招招绝了!

明天后天大后天
2026-06-04 00:22:08
央视6000万美元买世界杯版权?FIFA官方辟谣:价格是有史以来最高

央视6000万美元买世界杯版权?FIFA官方辟谣:价格是有史以来最高

风过乡
2026-06-03 12:24:45
投资14.5亿!上海火车站大改造落地,南北互通、三轨无缝换乘

投资14.5亿!上海火车站大改造落地,南北互通、三轨无缝换乘

科学发掘
2026-06-04 05:57:07
“消费降级”的香港人,正在挤爆深圳!网友:风水怎么就轮流转了?

“消费降级”的香港人,正在挤爆深圳!网友:风水怎么就轮流转了?

水泥土的搞笑
2026-06-04 00:03:01
巴基斯坦、埃及、土耳其、印度尼西亚、约旦、卡塔尔、沙特和阿联酋,发表联合声明

巴基斯坦、埃及、土耳其、印度尼西亚、约旦、卡塔尔、沙特和阿联酋,发表联合声明

环球时报国际
2026-06-04 08:06:36
2026-06-04 10:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13159文章数 142660关注度
往期回顾 全部

科技要闻

历史最大IPO!马斯克下周冲击万亿富豪

头条要闻

青少年药物成瘾:一次吞下150多片 把刀架脖子上睡觉

头条要闻

青少年药物成瘾:一次吞下150多片 把刀架脖子上睡觉

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

SpaceX发行价135美元 6月12日上市交易

汽车要闻

专访蒋平:安全不做高低配 长安要让安全技术普惠

态度原创

健康
游戏
旅游
数码
公开课

违规干细胞抗衰美容,为何肆无忌惮

《辐射3》重制版爆料:或于2027年上半年发售

旅游要闻

邂逅“无尽夏”——福州山谷的初夏来信

数码要闻

微软Surface RTX Spark Dev Box更详细规格曝光

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版