在计算机图形学和数字虚拟人领域,从简单的文本提示生成更真实、可交互的虚拟人物是是目前广受关注的研究课题。然而,先前的 3D Avatar 生成方法存在一些问题,如生成的人物在动作和细节上往往不够真实。
新加坡国立大学和清华大学的研究团队提出了“STAR: Skeleton-aware Text-based 4D Avatar Generation with in-network motion Retargeting”。该算法通过引入角色相关的骨骼感知技术,能够从文本描述生成高质量的 4D Avatar,显著提升了虚拟人物外观和动作的真实性和自然性。本文将简要介绍 STAR 算法的核心创新及其在文本到 Avatar 生成领域的贡献。
论文标题: STAR: Skeleton-aware Text-based 4D Avatar Generation with in-network motion Retargeting 论文链接: https://arxiv.org/abs/2406.04629 项目主页: https://star-avatar.github.io/ 代码链接: https://github.com/czh-98/STAR
一、本文动机
近年来,基于扩散模型的文本到图像生成(T2I generation)领域取得了显著的进展。通过利用 T2I Diffusion 先验,从文本描述生成 3D 内容(特别是类人角色)在计算机视觉和图形学社区引起了广泛关注。进一步地,4D 角色的创建(即合成具有真实人类动作的可动画角色)也在电影和游戏行业中引起了极大关注。
然而,目前主流的基于文本的 4D Avatar 生成通常采用先优化后驱动的策略。即,首先通过基于 T2I 的 Score Distillation Sampling(SDS)优化 Canonical 3D 表示,生成特定的 3D Avatar;然后再通过给定的动作进行人物驱动。这种典型的生成流程面临以下主要挑战,导致现有模型难以生成具有丰富几何和纹理多样性以及准确动作的生动 4D Avatar:
多面问题(Janus-Problem):一些先前的方法仅仅使用T2I扩散模型作为先验,并依赖于视角相关的文本提示来提供T2I模型稀疏的监督信号。因此,生成的结果往往不够精确,并可能出现不同视角下多个人脸的问题。
域间隙(Domain Gap):由于扩散模型是使用自然姿态下的人脸或人体图像进行训练的,而当前的文本到 3D 方法则是通过训练固定姿态的渲染图像来进行训练的。因此,存在渲染的 2D 图像与真实图像之间的姿态分布差异。这种基于标准姿态(Canonical Pose)的优化存在潜在的域间隙问题,不利于生成具有多样体型的 3D Avatar。
动画穿模(Animation Artifact):当简单地将文本到动作模型中的源动作应用于目标角色时,由于源模板(如 SMPL 模板)和目标角色之间的骨架和几何差异,可能会导致错误的驱动结果,例如手臂与身体相交等穿模问题。
二、STAR简介
为了解决上述挑战,本文提出了 STAR(如图所示)。相比于先前的 4D Avatar 生成方法,STAR 的核心在于通过在优化过程中考虑骨架(Skeleton)、几何(Geometry)以及姿势(Pose)的影响,利用运动重定向(motion retarget)技术获得更准确的骨架控制信号,用于 SDS 的优化。这一方法显著提升了 4D Avatar 的生成质量。
图1 文本驱动的 4D Avatar 生成:典型的优化-驱动流程(上)与本文的方法(下)比较。
优化结束后,借助 mesh 的表示,STAR 能够灵活地与来自文本、音频或视频的任意生成的运动结合,并兼容当前的图形软件(如 Blender)。给定人物和动作的文本描述,训练 4D Avatar 的整体算法流程如下:
图2 STAR的训练算法伪代码表示
STAR 的主要流程如下图所示,其核心包括以下几个方面:
图3 STAR 整体框架图。左:给定文本描述,我们使用预训练的文本到动作模型初始化人体动作。需要注意的是,典型的优化-驱动范式在 4D Avatar 生成中往往会导致不合理的结构和动画穿模等问题。右:STAR 通过集成重定向的动作来消除基于 SDS 优化中的潜在姿态分布偏差。利用角色相关和遮挡感知的骨架结构,并结合混合的 T2I 和 T2V 扩散模型,提供一致的 3D 先验。这一流程逐步优化几何、纹理和动作,以端到端的方式生成 4D Avatar。
Skeleton-aware, geometry-aware, motion-aware 的训练过程:在训练过程中,STAR 通过骨架感知、几何感知和动作感知来更新几何和纹理,同时同步调整源动作以匹配个性化 Avatar 的骨架和几何特征。这一方法有效提升了 Avatar 的外观多样性和动作真实性,显著减少了最终生成的 4D Avatar 中的穿模问题。
优化中的 motion retarget:通过及时更新运动,STAR 能够获得更准确的渲染图像,并为 ControlNet 提供骨架条件时提供更精确的结构信息。这使得渲染的 3D Avatar 与扩散模型中自然姿势分布更一致,有助于减少扩散模型先验与渲染图像之间的域间隙问题。更新的运动和骨架确保具有目标 3D 角色的精确结构信息,同时保持文本描述的语义一致。
混合 SDS 方法:为了消除时间不一致和视角无关的干扰,STAR 在 T2I 先验的基础上,引入了免训练的 T2V 模型,以提供不同时间和视角下的一致性先验。同时,STAR 提出了结合了骨架感知、遮挡感知和掩模感知的混合 SDS 方法,以强化视角一致性的监督信号,从而提高生成质量。
分层 Regularization:为了稳定混合 SDS 的优化过程,STAR 提出了分层的正则化方法,通过不同粒度的约束项对全局体型、顶点偏移和五官结构进行约束。这些约束项有助于提升角色在几何结构上的合理性,从而改善生成结果的几何质量和整体外观。
三、实验结果
定性结果表明,STAR 能够生成具有多样体型特征的角色,并通过 3D mesh 表示,在不同视角下展现更真实的动画效果。每个示例中展示了脸部和身体的纹理(左侧)以及法线贴图(右侧)的结果。
图4:STAR 生成的 4D Avatar 示例
在定量评估方面,本文利用 CLIP-Score、VQA-Score 和 User Study 验证了 STAR 相较于先前的一些方法能够生成更加真实的结果。
表1 Canonical 3D Avatar 和 4D Avatar 的定量比较。我们使用 CLIP-Score 和 VQA-Score 指标,得分越高表示生成结果与文本描述的一致性越好。
表2 User Study 结果。我们展示了不同方法在三个方面被选为“最佳”的平均百分比:Q1.几何质量,Q2.外观质量,以及 Q3.动作质量。
四、结论
本文提出了 STAR,一种能够从文本描述中生成高质量 4D Avatar 的方法。STAR 的关键创新在于充分考虑了动作多样性和真实性对于基于文本生成 4D Avatar 的重要性。与传统的先优化后驱动方法不同,STAR 引入了 Motion Retarget 和 Hybrid SDS 技术,显著改善了生成的 Avatar 的质量和一致性。通过逐步优化几何、纹理和动作,特别是在解决源模板与目标 Avatar 之间的骨架和几何差异方面,STAR 展示了在提升虚拟人物生成技术方面的潜力和优越性。
有关更多信息和细节,欢迎查阅本文、项目主页以及相关的代码。
作者:Chai Zenghao 来源:公众号【PaperWeekly】
llustration From IconScout By Delesign Graphic
-The End-
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(
www.techbeat.net) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
chenhongyuan@thejiangmen.com
或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.