网易首页 > 网易号 > 正文 申请入驻

ICCV 2025 | TriDi:3D人物交互建模新突破,三向扩散模型显著提升三维交互性能

0
分享至

随着三维计算机视觉技术的不断进步,三维人类-物体交互(3D Human-Object Interaction,3D HOI)建模成为了一个备受关注的研究方向,尤其是在虚拟现实、增强现实和机器人技术等领域。现有方法主要局限于单向建模,需要为每种条件设计独立的模型,无法灵活处理复杂的交互场景。本文介绍一篇来自德国蒂宾根大学和慕尼黑工业大学的工作,目前已经发表在计算机视觉顶会ICCV2025上。本文提出了一种名为TriDi的方法,通过三向扩散(Trilateral Diffusion)过程可以同时建模人类、物体和交互的联合分布,打破了传统单向模型的局限,能够在多种输入条件下生成高质量的三维交互模型


论文题目: TriDi: Trilateral Diffusion of 3D Humans, Objects and Interactions 文章链接: https://arxiv.org/abs/2412.06334 项目链接: https://virtualhumans.mpi-inf.mpg.de/tridi/
一、研究动机

目前的三维人类-物体交互(3D HOI)建模方法存在以下两大问题,影响了模型的准确性和应用范围:

  • 单向建模。目前3D HOI方法仍然是单向建模方法,这类方法的主要问题在于,模型需要为每一个特定的条件(如“给定物体,生成人体姿势”或“给定人体姿势,生成物体”)设计不同的架构和训练流程,这使得模型在扩展性和效率方面表现不佳。并且,这种单向建模方法难以充分利用三者之间的结构性依赖,也限制了模型在复杂条件下的生成能力。

  • 缺乏交互细节。现实世界中,人、物和交互是高度耦合的,人的行为和姿势会依赖于被操作的物体,人和物体的交互又受到人体姿态的约束。单向建模方法仅通过基于物体或人体的几何特征来恢复另一方的姿势,未能深入考虑交互过程中人物与物体之间的微妙细节。

因此,目前该领域迫切需要一个统一的概率模型来同时建模人体 、物体 、人与物体的交互 三种模态之间的联合分布,来实现跨模态的条件生成和推理。


本文提出了首个将人体姿态( )、物体( )与人与物之间交互( )进行统一建模的联合概率模型TriDi,如上图所示。TriDi模型将三种模态融合为一个整体框架,旨在捕捉它们之间复杂且紧密的依赖关系。TriDi支持在七种不同的条件配置下进行采样,涵盖了以往工作中分别处理的多种场景。

二、本文方法

本文提出的TriDi模型旨在对人体( )、物体( )和 交互( )的三变量联合分布 进行建模,从而统一处理人类、物体与交互之间的复杂关系,具体框架如下图所示。


2.1 模态表示

在这一节中主要介绍TriDi模型如何表示人体( )、物体( )和 交互( )三种模态

(1)人体的表示:基于常用于人体姿态与形状建模的SMPL+H体模方法。人体的表示被分解为姿势 、形状 和全局姿势 ,定义为:


(2)物体的表示:由物体特征 和物体类别 两部分表示,TriDi模型接收由用户提供的物体几何形状作为输入。


(3)交互的表示:采用接触图文本描述结合的联合表示方法,本文提出了一种学习紧凑统一潜在表示的方法,将交互 编码到一个共享的潜在空间中,如下图所示:


具体而言,给定一组配对数据 ,其中 为该交互的文本描述, 为定义在人体表面顶点集 上的接触图,本文同时训练以下编码器和解码器:

  • 接触图编码器 :将接触图映射到潜在空间中的向量 ;

  • 文本编码器 :通过 CLIP 模型将文本 编码为文本特征

  • 接触图解码器 :用于将潜在表示重新解码回接触图 。

为了统一这两种模态,作者设计了如下损失函数 进行优化:

最终,交互 转换为统一潜在空间的一个紧凑向量,表示为 。

2.2 三向扩散模型

随后作者提出了一个三向扩散模型,该模型基于扩散过程进行联合建模,在扩散过程下的噪声期望定义如下:

为了学习三模态的联合分布,模型参数 通过最小化扩展后的联合扩散重建损失进行优化,损失函数定义为:

, , 表示在扩散过程中的人体、物体和交互的表示, , , 表示相应的时间步, 是物体的条件信息。通过这个过程,TriDi能够在三种模态之间进行生成和推理。

2.3 具体实现

在详细实现时,本文以Transformer 架构为主体,额外引入了一个embedding层,将所有输入模态映射到统一的 token 空间中,如以下公式所示:

在所有输入中,唯一必需的条件是物体的表示,其他模态的输入属于可选。为了帮助网络学习三种模态之间的联合依赖关系, 、 、 这三种输入分别转化为 token,并通过自注意机制实现跨模态交互,从而捕捉人-物-交互之间的细粒度耦合关系。

三、实验结果

本文使用了四个数据集来评估TriDi模型的性能,分别是BEHAVE、GRAB、InterCap和OMOMO数据集。这些数据集包含了3D人体、物体及其交互数据,用于训练和验证TriDi模型的生成能力。作者将TriDi与现有的单向建模方法(如GNet)以及其他基于扩散模型的HOI建模方法进行了比较,以验证TriDi在生成3D人体、物体姿势和交互建模上的优越性。

3.1 定量分析

如上表所示,TriDi在生成的分布质量上显著优于基线方法。在BEHAVE数据集的 模式下,TriDi的COV达到了51.71%,MMD为0.166,显著优于ObjPOP+cVAE方法。较高的COV,表明TriDi生成的样本更好地覆盖了目标分布。较低的MMD说明TriDi生成的样本与地面真实数据的对齐度较高。

3.2 定性结果

随后作者也展示了本文方法与其他方法的定性对比结果。前两列分别展示了TriDi在 和 模式下的生成效果。例如,在 模式下,TriDi生成的样本避免了与物体(球)之间的穿透,并且在人类与物体的接触点上表现得更加一致。相比之下,GNet方法则出现了物体交叠或细节缺失的问题。在 模式下,TriDi生成的结果更加自然流畅,特别是在不受接触限制的肢体表现上,准确性也更高。

3.3 场景填充实验结果

本文还验证了TriDi在多种条件下进行场景填充的实用性,实验结果如上图所示。在这些实验中,作者将一个虚拟物体或人物放置在HPS数据集中的场景中,并利用TriDi生成与之匹配的交互结果。上图中的左图展示了在人与物体交互条件下TriDi生成的结果。右图则展示了TriDi用于人与物体联合生成的效果。这些实验结果展现了其在动态场景中生成合理交互的能力。

3.4 从图像中重建3D交互结果

本文提出的TriDi方法还能够间接地从图像中重建3D人类-物体交互。上图展示了来自DAMON数据集的示例,该数据集为HOT图像以及人体接触标注。尽管TriDi并未在DECO数据集上进行专门训练,但其出色的泛化能力使得它能够成功地扩展到这类场景中,并生成准确的3D交互结果

四、总结

本文提出了一种创新的三模态联合生成模型TriDi,用于同时建模和生成人体、物体交互。TriDi通过三向扩散过程将这三种模态的联合分布进行建模,能够在多种条件下灵活生成与人体、物体和交互相关的3D样本。该方法结合了文本描述和接触图的优势,通过共享的潜在空间实现了更加直观和精确的控制。TriDi不仅能处理复杂的交互场景,还能扩展到未见过的几何形状和场景,展现了强大的泛化能力和多模态生成的潜力,特别是在虚拟现实、增强现实及虚拟人类建模等应用中具有广泛的应用前景。

llustration From IconScout By IconScout Store

-The End-

本周上新!

扫码观看!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信(michelle333_)投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
古二超光鲜履历曝光!本想到王家卫身边镀金,反被做局“摘桃”

古二超光鲜履历曝光!本想到王家卫身边镀金,反被做局“摘桃”

小海娱计
2025-11-02 11:54:56
河北孟村杀妻案最新曝光!被害女子遇害将达40天,3岁儿子疑似被丈夫家人藏匿

河北孟村杀妻案最新曝光!被害女子遇害将达40天,3岁儿子疑似被丈夫家人藏匿

三农老历
2025-11-04 02:22:21
阿隆索:维尼修斯的事到此为止;明天的点球手是姆巴佩

阿隆索:维尼修斯的事到此为止;明天的点球手是姆巴佩

懂球帝
2025-11-04 04:36:10
2-1,39%控球率仍赢,意甲第20掀翻意甲第10,倒数第一迎赛季首胜

2-1,39%控球率仍赢,意甲第20掀翻意甲第10,倒数第一迎赛季首胜

侧身凌空斩
2025-11-04 05:26:32
玉石“骗局”:为什么全世界只有中国把它当宝贝?

玉石“骗局”:为什么全世界只有中国把它当宝贝?

白夜若梦
2025-10-29 16:59:27
可控核聚变+核电  市盈率最低的10大龙头!或有望成为跨年牛

可控核聚变+核电 市盈率最低的10大龙头!或有望成为跨年牛

元芳说投资
2025-11-04 07:00:07
中俄东北虎数量差距断崖:俄罗斯700只,中国的数量令人意外!

中俄东北虎数量差距断崖:俄罗斯700只,中国的数量令人意外!

历来纵横
2025-10-31 16:08:09
1945年,美国五星上将麦克阿瑟来到日本后,生活靡乱无度

1945年,美国五星上将麦克阿瑟来到日本后,生活靡乱无度

百态人间
2025-11-03 16:19:36
德布劳内接班人出现了!22岁的他,已是哈兰德最好的伙伴

德布劳内接班人出现了!22岁的他,已是哈兰德最好的伙伴

里芃芃体育
2025-11-04 08:10:18
唇语专家解读:斯彭斯离场前对弗兰克说道“我不干了”

唇语专家解读:斯彭斯离场前对弗兰克说道“我不干了”

懂球帝
2025-11-03 19:12:07
十五运男足:湖北率先出线!朱鹏宇李新翔李漠雨建功,王钰栋饮恨

十五运男足:湖北率先出线!朱鹏宇李新翔李漠雨建功,王钰栋饮恨

实事球是
2025-11-04 00:06:41
台湾歌手黄安发文:一觉醒来,导航都变了!

台湾歌手黄安发文:一觉醒来,导航都变了!

鲁中晨报
2025-11-03 15:27:15
刘强东带章泽天见特朗普,她拿56万爱马仕包,看到特朗普笑得很甜

刘强东带章泽天见特朗普,她拿56万爱马仕包,看到特朗普笑得很甜

做一个合格的吃瓜群众
2025-11-02 04:30:46
巴西大名单:维尼修斯领衔,法比尼奥、罗克回归,内马尔无缘

巴西大名单:维尼修斯领衔,法比尼奥、罗克回归,内马尔无缘

懂球帝
2025-11-04 02:30:51
大陆开始清算,12名“台独”被锁定!赖清德急了,赶紧喊话国民党

大陆开始清算,12名“台独”被锁定!赖清德急了,赶紧喊话国民党

起喜电影
2025-11-03 12:50:46
不用暖气也要交费50%-60%!西安多个小区业主直呼供暖空置费太高

不用暖气也要交费50%-60%!西安多个小区业主直呼供暖空置费太高

花小猫的美食日常
2025-11-04 00:14:31
学医后才明白,增强骨密度最好的运动,不是散步游泳,而是这个

学医后才明白,增强骨密度最好的运动,不是散步游泳,而是这个

周哥一影视
2025-10-23 12:39:17
广西伴娘婚礼大跳艳舞,新娘一脸尴尬,网友:太辣眼!

广西伴娘婚礼大跳艳舞,新娘一脸尴尬,网友:太辣眼!

农村情感故事
2025-11-02 19:58:42
完成赛季首秀 洛瑞正式跻身生涯20赛季俱乐部

完成赛季首秀 洛瑞正式跻身生涯20赛季俱乐部

北青网-北京青年报
2025-11-03 12:03:03
张家界“爱国贼事件”:傻X式爱国,是个巨大祸害

张家界“爱国贼事件”:傻X式爱国,是个巨大祸害

麦大人
2025-10-13 15:29:56
2025-11-04 08:39:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2249文章数 595关注度
往期回顾 全部

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

头条要闻

牛弹琴:想想不对劲德国外长又来电 中方三句话内涵深

头条要闻

牛弹琴:想想不对劲德国外长又来电 中方三句话内涵深

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

男导演曝丑闻 蒋欣的含金量还在上升

财经要闻

最新省市GDP:谁在飙升,谁掉队了?

汽车要闻

环比增长28.7% 方程豹品牌10月销量31052辆

态度原创

亲子
旅游
数码
手机
家居

亲子要闻

原来看十二少并不是一件很小众的事情!

旅游要闻

从“无缝入园”到“首乘权益”,冬航季好客山东不断升级出行体验

数码要闻

安卓平板性能哪家强?小米玄戒平板排第十 第一遥遥领先

手机要闻

安兔兔性能榜大变天,OPPO+vivo成最大赢家

家居要闻

岁月柔情 现代品质轻奢

无障碍浏览 进入关怀版