网易首页 > 网易号 > 正文 申请入驻

InteractMove:3D场景中人与可移动物体交互动作生成新框架

0
分享至



该论文的第一作者和通讯作者均来自北京大学王选计算机研究所,第一作者为博士生蔡鑫豪,通讯作者为博士生导师刘洋。团队近年来在 TPAMI、IJCV、CVPR、ICML 等顶会上有多项代表性成果发表,多次荣获国内外多模态理解与生成竞赛冠军,和国内外知名高校、科研机构广泛开展合作。

本文主要介绍来自该团队的最新论文 InteractMove:Text-Controlled Human-Object Interaction Generation in 3D Scenes with Movable Objects。

该研究首次提出了含可移动物体的 3D 场景中,基于文本的人 - 物交互生成任务,并构建了大规模数据集与创新方法框架,在多个评测指标上均取得了领先效果。现有的人 - 场景交互数据集存在交互类别不足的问题,并且通常只考虑与静态物体的交互。随着可移动物体的引入,任务变得更具挑战性:模型不仅需要准确识别目标交互物体,还要学会与不同类别和尺寸的物体交互,并避免物体与场景之间的碰撞。

为应对这些挑战,该研究提出了一个全新的方法框架:首先利用三维视觉定位模型确定目标交互物体;然后提出手 - 物联合可达图学习,用于预测不同手部关节与物体部位的接触区域,从而实现多样化物体的精确抓取与操作;最后,通过局部场景建模与碰撞约束优化交互,确保动作物理合理,避免物体与场景之间的穿模。

大量实验表明,该方法在生成物理合理且符合文本描述的交互方面优于现有方法。

目前该研究已被 ACMMM 2025 正式接收,相关代码与模型已全部开源。



  • 论文标题:InteractMove:Text-Controlled Human-Object Interaction Generation in 3D Scenes with Movable Objects
  • 论文链接:https://arxiv.org/abs/2509.23612
  • 代码链接:https://github.com/Cxhcmhhh/InteractMove
  • 项目主页:https://cxhcmhhh.github.io/InteractMoveProject/

打破现有瓶颈:交互单一与物体静态的局限

在三维场景中生成人体动作是一个快速发展的研究方向,在虚拟现实(VR)、增强现实(AR)、电子游戏等应用中具有重要意义。近年来,基于自然语言描述的人体动作生成引起了越来越多的关注。然而,大多数已有工作要么关注语言驱动的 “人与孤立物体” 的交互,忽略了周围场景的影响;要么研究 “人与场景” 的交互,但没有显式考虑可移动物体。这导致生成的交互在表现力和实际应用性上受到限制,因为现实世界中的物体往往嵌入在复杂环境中,并具有多样的可达情况。

为弥补这一空白,我们提出了一项新任务:在三维场景中基于文本驱动的可移动物体交互生成。然而,在现有的人 - 场景交互数据集中,交互类别有限,可交互的物体往往是固定、不可移动的,如床和沙发。此外,从零开始人工采集一个大规模、高质量的三维数据集不仅困难,而且成本高昂。

InteractMove 数据集:可移动物体的语言驱动交互

为解决这一难题,研究团队提出了 InteractMove 数据集。该数据集通过自动对齐现有交互动作与三维扫描场景,不仅避免了从零采集的高昂成本,还具备以下三大亮点:

1)多目标与干扰:场景中包含多个可交互物体及同类干扰项,模型必须基于语言理解与空间推理才能选中正确物体;

2)多样交互类型:覆盖 71 类可移动物体和 21 种交互方式,既包括 “一手拿起苹果”,也包括 “双手抬起桌子” 等复杂操作;

3)物理合理性:动作与物体轨迹经过严格筛选,避免 “穿模” 等不符合物理规律的现象。

为了实现这三点,研究团队将数据合成划分为三个阶段:

1)可移动目标物体放置:针对每种待合成的物体,在场景中搜索适当的表面用于放置该物体。例如,将 “苹果” 放置在桌子表面,将 “包” 放在沙发表面或地面等。

2)物理一致的动作对齐:为了保证交互动作在合成入场景后,能够在保持物理合理性的前提下符合场景限制,该方法首先强制对齐手部关节高度与放置后的物体高度一致,再利用扩散模型的 “重绘” 功能,基于新的手部位置对剩余部分人体位姿进行修正。

3)基于物理规律的场景感知筛选:为了保证人体和物体的移动轨迹符合场景限制,本方法基于以下设定进行过滤:a) 要求人与物体始终在场景范围内;b) 要求足部与地面保持合理接触;c) 要求物体与人体移动轨迹不与场景发生碰撞。



图 1:数据集的部分可视化结果。包含对多样物体的不同交互;场景中存在的同类干扰项;复杂环境下的物理合理交互。

创新方法:三阶段的交互生成框架



图 2:完整的方法概览。

在方法层面,团队提出的全新框架由三大核心模块组成:

第一步,3D 视觉定位。

模型首先利用先进的三维视觉定位技术,理解文本描述,并在复杂场景中精准定位目标物体。例如,当输入为 “拿起床边桌子上的苹果” 时,系统能在多个同类物体中识别出正确目标。

第二步,手 - 物可达图学习。

为了处理物体大小、形状差异带来的交互多样性,研究者设计了 “手 - 物可达图” 模块,对手部关节与物体表面之间的细粒度接触关系进行建模。首先将物体表面与手部关节关键点的成对距离归一化后定义为可达图,显式地建模交互中的时空关键信息。这使得模型能够生成符合语义的动作策略:拿带把手的杯子时会抓住把手,而没有把手的杯子则会握住杯身;轻物体可单手操作,而重物体则需双手配合。

第三步,碰撞感知动作生成。

交互动作不仅要符合语义,还需遵守物理规律。为此,研究团队提出了基于局部场景建模的动作生成模块,将目标物体周围环境体素化为占用网格,并结合碰撞感知损失函数,在生成过程中实时约束动作与物体的相对轨迹,避免人、物体与场景之间的交叉和穿模,保证动作自然合理。

这种 “定位 — 可达图 — 碰撞感知” 的三步走设计,使模型不仅能正确理解文本,还能生成符合物理规律、语义精准且多样化的人 - 物交互。

实验结果:全面超越现有方法



表 1:InteractMove 的结果。粗体表示最优表现。

在新提出的 InteractMove 数据集上,团队的方法在交互准确性、物理合理性、多样性以及碰撞避免等所有指标上均取得了最佳成绩。其中,多样性相较最优结果提升了 18%,物理合理性提升了 14%。在跨数据集的实验中(如 TRUMANS),该方法依然保持领先,证明了其良好的泛化能力。



表 2:对方法各个组件的消融实验。



表 3:对所使用的各个物理损失的消融实验。

该方法还进行了完备的消融实验,证明了所设计使用的各个模块的有效性和必要性。

定位模块:去掉 3D 视觉定位后,模型无法准确找到交互物体,目标距离指标显著下降。

手 - 物可达图模块:去掉该模块后,动作缺乏精细的手部与物体接触关系,物理合理性明显下降。局部场景建模模块:若不建模局部环境,动作容易与场景发生穿模,碰撞率大幅上升。碰撞感知损失:接触损失能提升手部与物体的贴合度,而穿模损失能有效减少穿透现象;推理阶段引入的额外碰撞约束则进一步提高了无碰撞率。

可视化与定性结果分析:更贴近真实世界的交互体验

除了量化评估,研究团队还对方法的可视化效果进行了展示与分析。结果表明,InteractMove 能够生成符合语义、自然连贯且物理合理的人 - 物交互动作。例如:



图 3:使用提示 “一个人端沙发旁桌上的碗来喝” 生成的结果。

在指令 “一个人端沙发旁桌上的碗来喝” 下,模型生成的动作呈现出自然的低头、伸手、抓取过程,并能够协调双手动作,避免与周围场景发生穿模或不合理的交互,生成的动作不仅符合语义,还在手部接触点和物体运动轨迹上保持了高一致性。

InteractMove 在可视化效果中表现优秀:交互自然:动作衔接流畅,手 - 物接触符合人类常识,不会出现僵硬或不连贯的姿态;物理合理:物体运动轨迹与人体动作相协调,几乎无穿透或悬空等不合理现象。

定性结果进一步证明,InteractMove 不仅在数值指标上领先,而且在视觉效果上也更加贴近真实世界的交互体验。

总结:跨越静态物体限制的人 - 物交互新框架

本次在 ACM Multimedia 2025 发布的 InteractMove 工作,不仅首次提出了文本驱动的可移动物体交互生成新任务,还构建了目前规模最大的高质量数据集,并提出了融合目标定位 — 手物可达图 — 碰撞感知生成 的创新方法框架。实验结果表明,该方法在多个核心指标上全面超越现有方案,具备强大的跨场景能力。

InteractMove 的提出为虚拟现实、增强现实、数字人和机器人等应用场景奠定了坚实的基础,让 AI 在虚拟世界中实现更自然、更智能的人 - 物交互成为可能。未来,他们还将探索更大规模、更复杂场景下的人机协同和通用交互智能体的构建。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
高鹰忠,任副部级新职

高鹰忠,任副部级新职

新京报政事儿
2026-01-17 13:48:24
长江十年禁渔已过半程:刀鱼群归,鲥鱼无影?生态修复路在何方?

长江十年禁渔已过半程:刀鱼群归,鲥鱼无影?生态修复路在何方?

向航说
2026-01-16 01:00:03
悲催!兽爷和九边等大V出来评论贾国龙了,都认为他倔得无可救药

悲催!兽爷和九边等大V出来评论贾国龙了,都认为他倔得无可救药

火山诗话
2026-01-16 18:26:44
国务院刚刚定了两件大事,直接关系你的钱袋子!

国务院刚刚定了两件大事,直接关系你的钱袋子!

21世纪经济报道
2026-01-16 21:29:29
江苏大一女生开养老院,无人入住却有近400名客户,员工全是60后

江苏大一女生开养老院,无人入住却有近400名客户,员工全是60后

法老不说教
2026-01-16 23:26:38
成龙女儿吴卓林结婚现场曝光,紧握爱人的手,洋溢着甜蜜笑容!

成龙女儿吴卓林结婚现场曝光,紧握爱人的手,洋溢着甜蜜笑容!

娱乐团长
2026-01-13 15:39:28
原来王菲没撒谎!公开求助、哽咽落泪的李亚鹏,证实了她当年评价

原来王菲没撒谎!公开求助、哽咽落泪的李亚鹏,证实了她当年评价

冷紫葉
2026-01-15 19:08:26
最小红军向轩:7岁投身革命9岁长征路,1955年授衔他获封什么军衔

最小红军向轩:7岁投身革命9岁长征路,1955年授衔他获封什么军衔

磊子讲史
2026-01-14 11:16:27
段永平为什么不喜欢看书?因为他早就戒掉了“穷人思维”

段永平为什么不喜欢看书?因为他早就戒掉了“穷人思维”

红大娘娱乐
2026-01-15 17:30:37
日专家称:中国或被迫修复对日关系,否则承受不起美国压力

日专家称:中国或被迫修复对日关系,否则承受不起美国压力

小正说娱乐
2026-01-17 13:55:47
贾国龙活成了堂吉诃德,向着想象中的风车冲锋,老罗都于心不忍

贾国龙活成了堂吉诃德,向着想象中的风车冲锋,老罗都于心不忍

上林院
2026-01-16 21:28:03
苹果突然官宣:1月17日,价格正式下调!

苹果突然官宣:1月17日,价格正式下调!

科技堡垒
2026-01-17 12:42:00
“90岁也不放过!”美国养老院23岁女护士被指控强奸多名老年住户

“90岁也不放过!”美国养老院23岁女护士被指控强奸多名老年住户

有书
2026-01-16 15:34:44
不惧过往交手1胜10负!王祉怡2-0陈雨菲,决赛或再战苦主安洗莹

不惧过往交手1胜10负!王祉怡2-0陈雨菲,决赛或再战苦主安洗莹

钉钉陌上花开
2026-01-17 15:46:06
快船5连胜重返前十!一口气获4大利好:小卡缺阵哈登31+10太硬气

快船5连胜重返前十!一口气获4大利好:小卡缺阵哈登31+10太硬气

锅子篮球
2026-01-17 13:15:22
14年后,再看“京城四少”的现状,才明白娶一个好老婆有多重要

14年后,再看“京城四少”的现状,才明白娶一个好老婆有多重要

丰谭笔录
2026-01-13 07:20:11
王自如喊冤:锤子手机不是我黑倒闭的,你们高估了我的能量……

王自如喊冤:锤子手机不是我黑倒闭的,你们高估了我的能量……

柴狗夫斯基
2026-01-15 08:33:54
天才难相处,马晓春竞选国家队总教练的起起落落

天才难相处,马晓春竞选国家队总教练的起起落落

月满大江流
2025-12-17 11:22:12
U23亚洲杯争议判罚!日本队点球被取消,VAR介入,约旦逃过一劫

U23亚洲杯争议判罚!日本队点球被取消,VAR介入,约旦逃过一劫

奥拜尔
2026-01-16 21:04:36
周末有大消息,10万亿度!电力设备,或进入超级大周期(附名单)

周末有大消息,10万亿度!电力设备,或进入超级大周期(附名单)

花小猫的美食日常
2026-01-17 13:47:32
2026-01-17 16:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12134文章数 142543关注度
往期回顾 全部

科技要闻

8亿周活扛不住烧钱 ChatGPT终向广告"低头"

头条要闻

女儿被前男友杀害 癌症晚期母亲熬439天等到死刑判决

头条要闻

女儿被前男友杀害 癌症晚期母亲熬439天等到死刑判决

体育要闻

三巨头走了俩,联盟笑柄却起飞了

娱乐要闻

徐家还是爱孩子的,在马筱梅生产前选择和解

财经要闻

保不准,人民币会闪击6.8!

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

游戏
教育
时尚
本地
艺术

社交沙盒MMO《BitCraft》开源 第一阶段1月21日

教育要闻

1335 万!高考人数 8 年首降,这些省份反而逆势增长

岁月不败美人,50岁她们比20岁更好看

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

艺术要闻

16位西方画家眼中的女性风姿

无障碍浏览 进入关怀版