网易首页 > 网易号 > 正文 申请入驻

InteractMove:3D场景中人与可移动物体交互动作生成新框架

0
分享至



该论文的第一作者和通讯作者均来自北京大学王选计算机研究所,第一作者为博士生蔡鑫豪,通讯作者为博士生导师刘洋。团队近年来在 TPAMI、IJCV、CVPR、ICML 等顶会上有多项代表性成果发表,多次荣获国内外多模态理解与生成竞赛冠军,和国内外知名高校、科研机构广泛开展合作。

本文主要介绍来自该团队的最新论文 InteractMove:Text-Controlled Human-Object Interaction Generation in 3D Scenes with Movable Objects。

该研究首次提出了含可移动物体的 3D 场景中,基于文本的人 - 物交互生成任务,并构建了大规模数据集与创新方法框架,在多个评测指标上均取得了领先效果。现有的人 - 场景交互数据集存在交互类别不足的问题,并且通常只考虑与静态物体的交互。随着可移动物体的引入,任务变得更具挑战性:模型不仅需要准确识别目标交互物体,还要学会与不同类别和尺寸的物体交互,并避免物体与场景之间的碰撞。

为应对这些挑战,该研究提出了一个全新的方法框架:首先利用三维视觉定位模型确定目标交互物体;然后提出手 - 物联合可达图学习,用于预测不同手部关节与物体部位的接触区域,从而实现多样化物体的精确抓取与操作;最后,通过局部场景建模与碰撞约束优化交互,确保动作物理合理,避免物体与场景之间的穿模。

大量实验表明,该方法在生成物理合理且符合文本描述的交互方面优于现有方法。

目前该研究已被 ACMMM 2025 正式接收,相关代码与模型已全部开源。



  • 论文标题:InteractMove:Text-Controlled Human-Object Interaction Generation in 3D Scenes with Movable Objects
  • 论文链接:https://arxiv.org/abs/2509.23612
  • 代码链接:https://github.com/Cxhcmhhh/InteractMove
  • 项目主页:https://cxhcmhhh.github.io/InteractMoveProject/

打破现有瓶颈:交互单一与物体静态的局限

在三维场景中生成人体动作是一个快速发展的研究方向,在虚拟现实(VR)、增强现实(AR)、电子游戏等应用中具有重要意义。近年来,基于自然语言描述的人体动作生成引起了越来越多的关注。然而,大多数已有工作要么关注语言驱动的 “人与孤立物体” 的交互,忽略了周围场景的影响;要么研究 “人与场景” 的交互,但没有显式考虑可移动物体。这导致生成的交互在表现力和实际应用性上受到限制,因为现实世界中的物体往往嵌入在复杂环境中,并具有多样的可达情况。

为弥补这一空白,我们提出了一项新任务:在三维场景中基于文本驱动的可移动物体交互生成。然而,在现有的人 - 场景交互数据集中,交互类别有限,可交互的物体往往是固定、不可移动的,如床和沙发。此外,从零开始人工采集一个大规模、高质量的三维数据集不仅困难,而且成本高昂。

InteractMove 数据集:可移动物体的语言驱动交互

为解决这一难题,研究团队提出了 InteractMove 数据集。该数据集通过自动对齐现有交互动作与三维扫描场景,不仅避免了从零采集的高昂成本,还具备以下三大亮点:

1)多目标与干扰:场景中包含多个可交互物体及同类干扰项,模型必须基于语言理解与空间推理才能选中正确物体;

2)多样交互类型:覆盖 71 类可移动物体和 21 种交互方式,既包括 “一手拿起苹果”,也包括 “双手抬起桌子” 等复杂操作;

3)物理合理性:动作与物体轨迹经过严格筛选,避免 “穿模” 等不符合物理规律的现象。

为了实现这三点,研究团队将数据合成划分为三个阶段:

1)可移动目标物体放置:针对每种待合成的物体,在场景中搜索适当的表面用于放置该物体。例如,将 “苹果” 放置在桌子表面,将 “包” 放在沙发表面或地面等。

2)物理一致的动作对齐:为了保证交互动作在合成入场景后,能够在保持物理合理性的前提下符合场景限制,该方法首先强制对齐手部关节高度与放置后的物体高度一致,再利用扩散模型的 “重绘” 功能,基于新的手部位置对剩余部分人体位姿进行修正。

3)基于物理规律的场景感知筛选:为了保证人体和物体的移动轨迹符合场景限制,本方法基于以下设定进行过滤:a) 要求人与物体始终在场景范围内;b) 要求足部与地面保持合理接触;c) 要求物体与人体移动轨迹不与场景发生碰撞。



图 1:数据集的部分可视化结果。包含对多样物体的不同交互;场景中存在的同类干扰项;复杂环境下的物理合理交互。

创新方法:三阶段的交互生成框架



图 2:完整的方法概览。

在方法层面,团队提出的全新框架由三大核心模块组成:

第一步,3D 视觉定位。

模型首先利用先进的三维视觉定位技术,理解文本描述,并在复杂场景中精准定位目标物体。例如,当输入为 “拿起床边桌子上的苹果” 时,系统能在多个同类物体中识别出正确目标。

第二步,手 - 物可达图学习。

为了处理物体大小、形状差异带来的交互多样性,研究者设计了 “手 - 物可达图” 模块,对手部关节与物体表面之间的细粒度接触关系进行建模。首先将物体表面与手部关节关键点的成对距离归一化后定义为可达图,显式地建模交互中的时空关键信息。这使得模型能够生成符合语义的动作策略:拿带把手的杯子时会抓住把手,而没有把手的杯子则会握住杯身;轻物体可单手操作,而重物体则需双手配合。

第三步,碰撞感知动作生成。

交互动作不仅要符合语义,还需遵守物理规律。为此,研究团队提出了基于局部场景建模的动作生成模块,将目标物体周围环境体素化为占用网格,并结合碰撞感知损失函数,在生成过程中实时约束动作与物体的相对轨迹,避免人、物体与场景之间的交叉和穿模,保证动作自然合理。

这种 “定位 — 可达图 — 碰撞感知” 的三步走设计,使模型不仅能正确理解文本,还能生成符合物理规律、语义精准且多样化的人 - 物交互。

实验结果:全面超越现有方法



表 1:InteractMove 的结果。粗体表示最优表现。

在新提出的 InteractMove 数据集上,团队的方法在交互准确性、物理合理性、多样性以及碰撞避免等所有指标上均取得了最佳成绩。其中,多样性相较最优结果提升了 18%,物理合理性提升了 14%。在跨数据集的实验中(如 TRUMANS),该方法依然保持领先,证明了其良好的泛化能力。



表 2:对方法各个组件的消融实验。



表 3:对所使用的各个物理损失的消融实验。

该方法还进行了完备的消融实验,证明了所设计使用的各个模块的有效性和必要性。

定位模块:去掉 3D 视觉定位后,模型无法准确找到交互物体,目标距离指标显著下降。

手 - 物可达图模块:去掉该模块后,动作缺乏精细的手部与物体接触关系,物理合理性明显下降。局部场景建模模块:若不建模局部环境,动作容易与场景发生穿模,碰撞率大幅上升。碰撞感知损失:接触损失能提升手部与物体的贴合度,而穿模损失能有效减少穿透现象;推理阶段引入的额外碰撞约束则进一步提高了无碰撞率。

可视化与定性结果分析:更贴近真实世界的交互体验

除了量化评估,研究团队还对方法的可视化效果进行了展示与分析。结果表明,InteractMove 能够生成符合语义、自然连贯且物理合理的人 - 物交互动作。例如:



图 3:使用提示 “一个人端沙发旁桌上的碗来喝” 生成的结果。

在指令 “一个人端沙发旁桌上的碗来喝” 下,模型生成的动作呈现出自然的低头、伸手、抓取过程,并能够协调双手动作,避免与周围场景发生穿模或不合理的交互,生成的动作不仅符合语义,还在手部接触点和物体运动轨迹上保持了高一致性。

InteractMove 在可视化效果中表现优秀:交互自然:动作衔接流畅,手 - 物接触符合人类常识,不会出现僵硬或不连贯的姿态;物理合理:物体运动轨迹与人体动作相协调,几乎无穿透或悬空等不合理现象。

定性结果进一步证明,InteractMove 不仅在数值指标上领先,而且在视觉效果上也更加贴近真实世界的交互体验。

总结:跨越静态物体限制的人 - 物交互新框架

本次在 ACM Multimedia 2025 发布的 InteractMove 工作,不仅首次提出了文本驱动的可移动物体交互生成新任务,还构建了目前规模最大的高质量数据集,并提出了融合目标定位 — 手物可达图 — 碰撞感知生成 的创新方法框架。实验结果表明,该方法在多个核心指标上全面超越现有方案,具备强大的跨场景能力。

InteractMove 的提出为虚拟现实、增强现实、数字人和机器人等应用场景奠定了坚实的基础,让 AI 在虚拟世界中实现更自然、更智能的人 - 物交互成为可能。未来,他们还将探索更大规模、更复杂场景下的人机协同和通用交互智能体的构建。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
新疆维吾尔自治区党委常委会召开会议 坚决拥护党中央对金之镇涉嫌严重违纪违法进行纪律审查和监察调查的决定

新疆维吾尔自治区党委常委会召开会议 坚决拥护党中央对金之镇涉嫌严重违纪违法进行纪律审查和监察调查的决定

环球网资讯
2025-11-02 13:34:52
他才是水浒最圆满的角色!和兄弟逃脱招安的结局,还出海成了国王

他才是水浒最圆满的角色!和兄弟逃脱招安的结局,还出海成了国王

白云故事
2025-10-18 19:15:03
美国的一纸诉状,揭开了陈志和太子集团迄今为止最详尽内幕

美国的一纸诉状,揭开了陈志和太子集团迄今为止最详尽内幕

清晖有墨
2025-10-27 11:09:50
WTT冠军赛女单决赛揭晓:黑马出局,大迪对决一般选手

WTT冠军赛女单决赛揭晓:黑马出局,大迪对决一般选手

老澽爆笑大聪明
2025-11-02 21:37:22
你见过最离奇的案件是什么?网友:我一个变态都觉得这些人太变态

你见过最离奇的案件是什么?网友:我一个变态都觉得这些人太变态

带你感受人间冷暖
2025-11-01 00:05:14
我娶了36岁大龄剩女,新婚当晚我后悔了,她剩下是有原因的

我娶了36岁大龄剩女,新婚当晚我后悔了,她剩下是有原因的

青青会讲故事
2025-04-28 12:38:06
下周A股调研结果出炉,投资者最看好这一行业

下周A股调研结果出炉,投资者最看好这一行业

数据宝
2025-11-02 20:05:39
他曾任北京军区司令员,1955年授中将,56岁被免职,儿子也是中将

他曾任北京军区司令员,1955年授中将,56岁被免职,儿子也是中将

大运河时空
2025-11-01 18:40:03
四大银行 大额存单最新利率:2025年11月,本金20万比买国债强吗?

四大银行 大额存单最新利率:2025年11月,本金20万比买国债强吗?

双色球的方向舵
2025-11-02 09:05:48
离婚多年仍同心!李湘王岳伦合体送王诗龄出行,同框画面满是温情

离婚多年仍同心!李湘王岳伦合体送王诗龄出行,同框画面满是温情

述家娱记
2025-11-02 13:08:37
内蒙“女色虎”落马,靠陪睡高官上位,大肆敛财为了整容

内蒙“女色虎”落马,靠陪睡高官上位,大肆敛财为了整容

文史旺旺旺
2024-10-31 12:26:20
中信建投:A股或进入新一轮横盘调整 关注主线和风格切换

中信建投:A股或进入新一轮横盘调整 关注主线和风格切换

财联社
2025-11-02 18:34:17
枪决吴石后,谷正文随即炸毁克什米尔公主号,蒋介石:他是活阎王

枪决吴石后,谷正文随即炸毁克什米尔公主号,蒋介石:他是活阎王

史笔似尘钩
2025-10-23 21:36:55
蒙彼利埃冠军赛,男女单决赛名额全部产生,4个事实呈现在眼前!

蒙彼利埃冠军赛,男女单决赛名额全部产生,4个事实呈现在眼前!

田先生篮球
2025-11-02 21:44:44
亚泰降级到中甲后,他或许会成为第一个被挖走的强援,引发热议

亚泰降级到中甲后,他或许会成为第一个被挖走的强援,引发热议

李虰手工制作
2025-11-02 17:29:00
欧盟捅了马蜂窝?制裁激怒俄罗斯,外交部强硬反击已正式上路

欧盟捅了马蜂窝?制裁激怒俄罗斯,外交部强硬反击已正式上路

科普100克克
2025-11-02 22:27:50
致哀!兰州大学发讣告

致哀!兰州大学发讣告

双一流高校
2025-11-02 20:26:44
左权之妻刘志兰:后改嫁给左权生前的秘书,1967年参与山西夺权

左权之妻刘志兰:后改嫁给左权生前的秘书,1967年参与山西夺权

红梦史说
2025-11-01 09:19:27
总统府被包围!乌克兰人终于醒悟了:最大敌人并不是俄罗斯?

总统府被包围!乌克兰人终于醒悟了:最大敌人并不是俄罗斯?

花花娱界
2025-11-02 17:45:52
这一次,高调官宣新恋情的葛荟婕,终究没给凉薄的汪峰留一丝体面

这一次,高调官宣新恋情的葛荟婕,终究没给凉薄的汪峰留一丝体面

八斗小先生
2025-11-01 11:19:14
2025-11-02 23:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11617文章数 142497关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

多名教师称被欠薪欠缴社保 数千万学费被填房地产窟窿

头条要闻

多名教师称被欠薪欠缴社保 数千万学费被填房地产窟窿

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

亲子
本地
旅游
公开课
军事航空

亲子要闻

别再逼孩子卷了!每一个生命都是奇迹

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

旅游要闻

总长度340公里 都江堰市文化遗产步道发布

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄在日本海演习击沉假想敌潜艇

无障碍浏览 进入关怀版