合成语义感知、长时间跨度的人-物交互对于模拟真实的人类行为至关重要。简单地应用扩散模型无法预测与输入路径点对齐的物体运动,也无法确保需要精确手-物接触和地面适当接触的交互的真实性。为了解决这些问题,斯坦福大学提出了可控人-物交互合成(CHOIS)方法,该方法使用条件扩散模型,在给定语言描述、初始物体和人体状态以及稀疏物体路径点的情况下,同时生成物体运动和人体运动。
CHOIS接受初始对象和人类状态、语言描述以及稀疏的对象航点作为输入,以合成对象运动和人类运动。通过使用从3D场景中提取的航点作为输入条件,CHOIS能够在具有上下文环境的场景中进行交互合成。引入了物体几何损失作为额外的监督,以提高生成的物体运动与输入物体路径点之间的匹配度。
01 技术原理
给定物体几何形状,CHOIS使用BPS(二进制点集)表示对几何形状进行编码,并通过一个多层感知机(MLP)将特征投影到低维向量中。该特征向量与掩码姿态状态连接,形成去噪网络的条件。在采样过程中,我们使用解析函数计算梯度,并通过扰动生成结果来满足我们定义的约束条件。
与其他方法对比:调整了InterDiff、MDM和OMOMO等方法以适应任务需求,并引入CHOIS及其变体进行对比。InterDiff因输入条件纠缠,表现不佳;MDM缺乏接触约束,难以生成真实交互;OMOMO通过线性插值生成物体轨迹,偏差为零。Pred-OMOMO和GT-OMOMO变体,其中Pred-OMOMO在接触指标上优于基线,但不及CHOIS。CHOIS引入物体几何损失和推理指导,显著提升了条件匹配和接触精度,表现最优。
02 演示效果
CHOIS工作解决了基于语言描述和稀疏物体路径点的人与物体交互合成问题。通过采用条件扩散模型,成功生成了不仅同步且与给定语言描述相呼应的物体和人体运动。
(用脚推动椅子来改变其方向;提起垃圾桶,移动并放下垃圾桶)
(拿起落地灯,将落地灯移到靠近沙发的位置; 抬起盒子,移动盒子并放在桌子上)
论文和代码开源接近三个月, 在虚拟现实、游戏开发、机器人仿真、影视制作、智能家居和教育培训等领域具有广泛的应用潜力。未来,可进一步探索多物体交互、实时生成、复杂语言理解和跨领域泛化等方向,推动虚拟交互技术的发展。
https://github.com/lijiaman/chois_release
https://arxiv.org/pdf/2312.03913欢迎交流~,带你学习AI,了解AI
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.