![]()
这项由中国科学技术大学王鑫艺、杨恂等研究人员领导,联合新加坡科技设计大学和香港中文大学(深圳)团队完成的研究,发表于2025年神经信息处理系统大会(NeurIPS 2025)。有兴趣深入了解的读者可以通过arXiv:2511.10017v1查询完整论文。
当你走进一个陌生的房间,需要完成"拔掉圣诞树灯的插头"这样的任务时,你的大脑会自动识别出圣诞树、找到插头的确切位置,并且知道应该水平向外拉动来拔掉插头。这个看似简单的过程,实际上包含了复杂的空间推理、物体识别和动作预测。现在,研究团队开发出了一套名为AffordBot的系统,让机器人也能像人类一样精确地"读懂"3D环境中的可操作元素。
这项研究解决了一个困扰机器人领域多年的关键问题:如何让机器人不仅能识别物体,还能准确理解如何与这些物体进行交互。过去的机器人系统往往只能在物体层面进行粗糙的识别,比如"这是一个柜子",但无法精确定位柜子的哪个把手需要拉动,更不用说预测拉动的具体方向了。AffordBot系统的突破在于,它能够同时完成三个关键任务:精确定位可操作的细节部位、判断需要执行的动作类型(比如旋转还是推拉),以及确定动作的具体方向。
研究团队的创新方法就像给机器人配备了一套"立体视觉推理系统"。当面对复杂的3D场景时,这套系统首先会像摄影师一样,围绕场景拍摄多个不同角度的"照片",然后利用多模态大语言模型的强大理解能力,通过一种特殊设计的"思维链"推理过程,逐步分析和理解场景中的每个细节。
一、突破传统:从粗糙识别到精细理解
传统的机器人视觉系统就像一个只会看大概的"近视眼",它们能够识别出"这是一张桌子"、"那是一把椅子",但无法深入理解桌子的哪个抽屉可以拉开,或者椅子的哪个部分可以调节。这种粗糙的识别方式在真实的家庭或办公环境中完全不够用。
研究团队意识到,人类在处理这类任务时有着独特的能力。当你看到"打开左侧窗户"这样的指令时,你不仅要找到窗户,还要精确定位左侧的窗扇,理解它是通过旋转开启的,并且知道旋转的轴线是垂直方向的。这个过程涉及空间定位、功能理解和动作预测的完美结合。
AffordBot系统的核心创新就是将这个复杂的认知过程转化为一套可计算的方法。它不再满足于简单的物体识别,而是要求机器人能够预测一个结构化的"三元组"信息:第一是精确的3D位置掩码(告诉机器人确切的操作位置),第二是动作类型(是平移还是旋转),第三是动作方向(沿着哪个轴线移动)。这种结构化的预测方式确保了机器人的每一个动作都是经过深思熟虑的,而不是盲目的尝试。
与此前研究的一个重要区别在于,AffordBot是完全基于任务指令的。换句话说,它不会机械地分析场景中每一个可能的交互点,而是根据具体的任务需求,有针对性地找到相关的操作元素。这种"按需分析"的方式不仅提高了效率,也更接近人类的认知模式。
二、巧妙架构:3D世界与2D理解的完美桥接
要让原本设计用于处理2D图像和文字的大语言模型理解3D场景,就像要让一个只会看平面画作的艺术评论家去评价雕塑作品一样困难。研究团队的解决方案极为巧妙:他们设计了一套"多视角合成系统",将3D场景转换成多模态大语言模型能够理解的形式。
这个转换过程就像一个专业的房地产摄影师在拍摄房屋展示图。系统会在场景的中心位置设置一个虚拟摄像头,然后进行360度的水平旋转扫描,每隔45度拍摄一张高质量的图像。这样一圈下来,就能得到8张不同角度的场景图像,确保房间内的每个角落都被完整记录下来。
但仅仅有图像还不够。研究团队还开发了一套"几何语义描述符"提取系统。这套系统就像一个细致的房屋检验员,会详细记录每个可交互元素的精确位置、尺寸大小和功能类型。比如,它会记录某个抽屉把手位于房间坐标系的哪个位置,有多大尺寸,属于"拉拽"类型的交互元素等等。
接下来是关键的"3D到2D映射"过程。系统会将这些3D空间中的几何信息精确地投影到每张2D图像上,并在每个元素周围画上边界框,配上唯一的标识符。为了确保这些标识清晰可见不相互遮挡,研究团队还设计了一套"自适应标签精化算法"。这个算法就像一个精明的平面设计师,会智能地为每个标签寻找最佳的显示位置,避免标签之间的重叠和混乱。
这种多视角的信息整合方式相比传统的视频处理方法有着显著优势。传统方法需要处理大量冗余的视频帧,不仅计算量大,而且往往因为视角限制导致重要信息缺失。而AffordBot的方法能够确保场景中的每个相关元素都能在至少一个视角中清晰可见,同时避免了视频处理的复杂性。
三、思维链推理:模拟人类的空间认知过程
AffordBot最精妙的部分是它的"思维链推理"机制,这个过程非常接近人类在处理复杂空间任务时的思维模式。整个推理过程分为三个递进的阶段,就像一个经验丰富的室内设计师在分析空间布局时的思路。
第一阶段是"主动视角选择"。当面对多张不同角度的场景图像时,系统需要根据任务指令智能地选择最合适的观察角度。这就像你在寻找电视遥控器时,会本能地从最可能看到遥控器的角度开始观察。系统会分析任务描述,比如"打开木柜底部的抽屉",然后在多个视角中选择能够同时看清木柜、抽屉和相关参考物(如柜子上的花瓶和照片)的最佳角度。
这种主动选择比简单的启发式规则要智能得多。系统不是机械地选择某个固定视角,而是基于对任务内容的深度理解来做决策。它会考虑任务中提到的所有元素是否在某个视角中都清晰可见,标识符是否容易辨认,以及该视角是否提供了足够的上下文信息。
第二阶段是"精确定位"。在选定了最佳观察角度后,系统开始在场景中寻找任务指令中提到的具体目标。这个过程就像在复杂的寻物游戏中找到特定的物品。系统会结合视觉信息和几何描述符,精确识别出符合任务描述的元素。比如,对于"有花瓶和照片的木柜的底部抽屉"这样的复杂描述,系统需要先找到有花瓶和照片的木柜,然后在这个柜子的众多抽屉中定位到底部的那一个。
第三阶段是"动作预测"。这是整个推理链的关键环节。系统需要基于目标元素的类型和上下文环境,预测出正确的交互方式。这就像一个熟练的木匠在看到不同类型的家具部件时,能够立即判断出正确的操作方法。
对于抽屉,系统会推断这是一个"平移"动作,方向是"水平向外",因为抽屉的开启方式是沿着水平方向滑出。对于窗户,系统可能会判断为"旋转"动作,轴线是"垂直"的,因为窗扇通常是绕着垂直铰链旋转开启的。这种推理不是基于简单的规则匹配,而是基于对物理世界交互规律的深度理解。
整个思维链推理过程的设计巧妙地模拟了人类的认知模式:先观察,再定位,最后决策行动。每一步都是基于前一步的结果,形成了一个逻辑清晰、可解释的推理链条。
四、技术细节:从点云到智能交互
AffordBot系统在技术实现上的一个重要特点是直接处理3D点云数据,而不依赖于传统的视频输入。点云数据就像是用数千个极小的空间坐标点来描述一个3D场景,每个点都有精确的三维位置信息。这种数据格式虽然看起来抽象,但它包含了最原始、最准确的空间几何信息。
为了从这些密密麻麻的点云数据中提取有意义的信息,研究团队采用了一个叫做Mask3D的先进分割网络。这个网络就像一个极其细致的空间解剖师,能够在点云的"汪洋大海"中精确地识别和分割出每一个独立的可交互元素。更重要的是,它不是简单地识别"这是一个椅子",而是能够区分椅子的不同功能部分,比如可旋转的座椅部分、可调节的扶手等等。
在训练这个分割网络时,研究团队采用了一种"由粗到细"的课程学习策略。这种方法就像教小孩子画画,先从画大轮廓开始,然后逐渐增加细节。系统在训练初期会看到被人为放大的目标区域,这样它更容易学会识别大体的形状和位置。随着训练的进行,这些区域会逐渐缩小到真实尺寸,迫使系统学会识别越来越精细的细节。
在动作方向的处理上,研究团队做了一个重要的简化决策。虽然真实的3D空间中存在无穷多个可能的运动方向,但为了让多模态大语言模型能够有效处理这些信息,他们将连续的方向向量离散化为几个基本类别。对于平移动作,有四种基本方向:水平向内、水平向外、垂直向上、垂直向下。对于旋转动作,只区分两种轴线:水平轴和垂直轴。这种简化既保持了实用性,又大大降低了系统的复杂度。
整个系统使用了Qwen2.5-VL-72B这个大型多模态语言模型作为核心推理引擎。这个模型就像一个博学的翻译官,能够理解自然语言指令,处理复杂的视觉信息,并输出结构化的预测结果。为了充分发挥这个模型的能力,研究团队设计了专门的提示词模板,就像给这个"翻译官"提供了详细的工作手册,告诉它在每个推理阶段应该关注什么,如何组织思路,以及如何表达结果。
五、实验验证:超越现有方法的显著优势
研究团队在SceneFun3D数据集上对AffordBot进行了全面的性能测试。SceneFun3D是目前唯一一个同时提供精细粒度可交互元素标注和运动参数标注的大规模3D室内场景数据集,包含230个精心标注的场景,其中200个用于训练,30个用于验证。
实验结果显示,AffordBot在多个关键指标上都显著超越了现有的最先进方法。在精确定位任务中,AffordBot的平均精度(AP)达到了15.5%,相比之前最好的Fun3DU方法的6.1%,提升了150%以上。更重要的是,在需要同时考虑定位准确性和动作预测正确性的综合评估中,AffordBot的表现更加突出。当要求系统不仅要找对位置,还要预测对动作类型时,AffordBot的准确率达到18.3%,而对比方法只有11.5%。当进一步要求同时预测正确的动作类型和方向时,AffordBot仍能保持10.8%的准确率,远超对比方法的4.0%。
为了深入理解系统各个组件的贡献,研究团队进行了详细的消融实验。实验表明,"多视角合成"是性能提升的最大贡献者,将准确率从16.1%提升到22.1%,增幅达到6个百分点。这证明了全面的场景观察对于精确理解空间布局的重要性。"自适应标签精化"虽然提升相对较小(0.4个百分点),但确保了视觉输入的清晰度。"主动视角选择"贡献了最后的1.2个百分点提升,体现了智能观察策略的价值。
研究团队还测试了不同多模态大语言模型对系统性能的影响。结果显示,使用更先进的GPT-o1模型能够将性能进一步提升到33.4%的准确率,这表明AffordBot的框架设计具有很好的可扩展性,能够随着基础模型的进步而持续改善。
在不同类型可交互元素的性能分析中,系统在"足部按压"类型元素上达到了100%的准确率,在"钩转"类型上达到45.1%,但在"旋转"类型上仍有挑战,准确率仅为2.5%。这种差异主要源于不同类型元素在数据集中的分布不均和初始分割质量的差异。
六、局限性分析:指明未来发展方向
尽管AffordBot在多个方面都取得了显著进展,但研究团队也诚实地指出了系统当前的一些局限性。最主要的瓶颈在于初始的元素分割质量。实验表明,当使用完美的地面实况分割掩码替代预测的掩码时,系统性能能够从23.3%跃升至45.4%,提升幅度达到22个百分点。这说明准确的元素识别和分割仍然是制约系统整体性能的关键因素。
另一个限制来自于固定的观察位置策略。目前系统只从场景的几何中心进行360度扫描,这种方法虽然简单有效,但在某些情况下可能导致重要元素被遮挡或观察角度不佳。未来的改进方向包括开发更智能的相机定位策略,可能结合多个高度层次的观察点,或者基于任务需求动态调整观察策略。
在不同可交互元素类型的处理上,系统的性能差异也反映了技术上的挑战。对于一些小尺寸或弱纹理的元素,比如插头、开关等,现有的分割网络往往难以准确识别。这部分原因来自于训练数据的不平衡,部分原因则源于这类元素本身的视觉特征不够明显。
运动参数的离散化处理虽然降低了系统复杂度,但也可能限制了对某些复杂运动模式的表达能力。真实世界中的一些交互可能需要更精细的方向控制或多步骤的组合动作,这些都是当前框架需要进一步扩展的方向。
七、实际应用前景:从实验室到真实世界
AffordBot技术的潜在应用前景非常广阔,特别是在需要精细操作的机器人应用场景中。在家庭服务机器人领域,这项技术可以让机器人准确理解诸如"打开厨房橱柜的第二个抽屉"或"调低客厅空调的温度"这样的复杂指令,并且能够精确执行相应的操作动作。
在医疗辅助机器人方面,精确的空间理解和动作预测能力对于协助医护人员进行精细操作具有重要价值。机器人可以根据医生的口头指令,准确地操作医疗设备的特定部件,或者协助整理和获取医疗器械。
工业自动化是另一个重要的应用方向。在复杂的生产线环境中,工人经常需要对各种设备进行精细的调节和操作。基于AffordBot技术的智能系统可以理解操作员的自然语言指令,并自动执行相应的设备调节动作,大大提高生产效率和操作安全性。
在智能建筑和办公环境中,这项技术可以实现更自然的人机交互。用户可以通过简单的语音指令控制房间内的各种设施,而不需要记忆复杂的控制界面或寻找遥控器。系统能够理解"打开会议室的投影仪"或"调整办公桌的高度"这样的指令,并准确执行相应操作。
随着技术的进一步发展和完善,我们可以期待看到更多创新的应用场景。比如在教育领域,智能机器人助教可以根据教师的指令操作各种教学设备;在零售环境中,服务机器人可以帮助顾客准确找到并获取特定商品;在养老护理中,辅助机器人可以帮助老年人完成各种日常操作任务。
这项研究不仅推进了机器人技术的发展,也为人工智能在复杂现实环境中的应用开辟了新的可能性。随着3D感知技术和大语言模型的持续进步,我们有理由相信,具有精细空间理解能力的智能系统将在不久的将来成为我们日常生活中的得力助手。
Q&A
Q1:AffordBot与传统机器人视觉系统有什么本质区别?
A:传统系统只能粗糙地识别物体类别,比如"这是桌子",而AffordBot能够精确理解具体的可操作部位,比如"桌子的第二个抽屉的把手",并且能预测正确的操作方式和方向。它就像给机器人装上了人类级别的空间理解能力。
Q2:为什么AffordBot要使用360度多视角扫描而不是视频?
A:视频处理需要分析大量冗余帧,计算量大且容易因为视角限制遗漏重要信息。360度扫描能确保场景中每个相关元素都能在至少一个角度清晰可见,就像一个专业摄影师为房屋拍摄全方位展示图,既高效又全面。
Q3:AffordBot的思维链推理过程具体是怎样工作的?
A:分为三个递进阶段:首先根据任务智能选择最佳观察角度,然后在选定视角中精确定位目标元素,最后基于元素类型和上下文预测正确的操作动作和方向。整个过程模拟了人类处理复杂空间任务时的认知模式。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.