网易首页 > 网易号 > 正文 申请入驻

IROS 2025 | 大连理工等提出STG-Avatar:25分钟训练,单目视频实时生成高保真数字人

0
分享至

文章来源:我爱计算机视觉(ID:aicvml)

最近,数字人领域因为3D高斯溅射(3D Gaussian Splatting)技术的出现,又热闹了起来。这项技术大大加快了渲染速度,让实时高保真渲染成为了可能。不过,挑战依然存在,尤其是在处理衣服、快速运动的肢体等这些“软”的、动态的细节时,效果总是不尽如人意。

今天,CV君想和大家聊一篇刚被机器人顶会IROS 2025接收的论文《STG-Avatar: Animatable Human Avatars via Spacetime Gaussian》。这篇工作来自大连理工大学、复旦大学等机构的研究者们,他们提出了一个名为STG-Avatar的全新框架,旨在解决上述痛点。简单来说,只用一段普通单目视频,它就能在25分钟内训练出一个细节丰富、可实时动画的数字人分身,并能以60 FPS的丝滑帧率进行渲染。



  • 论文标题 : STG-Avatar: Animatable Human Avatars via Spacetime Gaussian

  • 作者 : Guangan Jiang, Tianzi Zhang, Dong Li, Zhenjun Zhao, Haoang Li, Mingrui Li, Hongyu Wang

  • 机构 : 大连理工大学、复旦大学、澳门大学、萨拉戈萨大学、香港科技大学(广州)

  • 论文地址 : https://arxiv.org/abs/2510.22140

  • 项目主页(尚未开源) : https://github.com/jiangguangan/STG-Avatar

背景:数字人动画,快与好难两全

创建逼真的可动数字人,无论是在人机交互、VR/AR还是机器人远程呈现等领域,都有着巨大的应用价值。传统方法,比如基于NeRF(神经辐射场)的技术,虽然能生成高质量的数字人,但训练和渲染速度都太慢,动辄需要几十个小时训练,渲染一帧也要好几秒,离“实时”相去甚远。

3D高斯溅射(3DGS)的出现像一股清流,它用成千上万个“高斯球”来显式地表示三维场景,渲染速度极快。然而,当面对一个活生生的人时,3DGS也遇到了麻烦。现有的基于3DGS的方法通常使用经典的线性混合蒙皮(Linear Blend Skinning, LBS)模型来驱动人体的骨骼运动。LBS擅长处理刚性的骨骼和关节运动,但对于衣服的褶皱、头发的飘动这类非刚性变形,就显得力不从心,导致细节丢失或产生不自然的“穿模”现象。

如何才能既保留LBS带来的高效实时骨骼控制,又能精准捕捉那些微妙的非刚性动态细节呢?这正是STG-Avatar试图解决的核心问题。

方法:刚柔并济,时空高斯巧补细节

STG-Avatar的核心思想是“刚柔并济”。它巧妙地将LBS和一种名为“时空高斯(Spacetime Gaussian, STG)”的技术结合起来,形成了一个刚-非刚耦合的变形框架。


整个流程可以分为三个阶段:

  1. SMPL引导的初始化 :首先,利用SMPL人体参数化模型对时空高斯进行初步的位置设定。

  2. 刚-非刚协同优化 :这是最关键的一步。LBS负责驱动人体总体的、刚性的姿态变化,保证了动画的实时性和骨骼运动的准确性。而STG则在此基础上,对3D高斯球进行时空维度的自适应优化,专门捕捉和补偿LBS无法处理的非刚性变形,比如衣服的褶皱和摆动。

  3. 动态感知的神经渲染 :最后,通过一个轻量级的MLP(多层感知机)进行颜色解码和渲染。

亮点一:光流引导的自适应加密

为了更好地捕捉高速运动区域的细节,作者们还引入了一个非常聪明的策略:用光流(Optical Flow)来识别哪些区域正在快速运动。


上图展示了未使用光流引导(左)和使用后(右)的对比。可以清晰地看到,在手部、面部这些细节丰富且动态的区域,完整模型的重建效果有了显著提升。当检测到某个区域(比如挥舞的手臂)运动剧烈时,框架就会自动地、有针对性地在该区域增加3D高斯球的密度。这样一来,计算资源就被用在了“刀刃上”,既能精准还原动态细节,又避免了全局加密带来的巨大计算开销。

实验:效果与效率双双领先

口说无凭,实验为证。研究者们在ZJU-MoCap和THUman4.0这两个主流的单目视频人体动作捕捉数据集上,将STG-Avatar与当前最先进的方法(SOTA)进行了全面对比。

定量对比

从上表数据可以看出,在PSNR、SSIM(越高越好)和LPIPS(越低越好)这三项关键的图像质量评估指标上,STG-Avatar都取得了最优或次优的成绩,全面超越了HumanNeRF、GauHuman和3DGS-Avatar等方法。特别是在动态区域,其PSNR比3DGS-Avatar提升了1.5dB,衣物褶皱的LPIPS误差降低了23%

定性对比

上图是在ZJU-MoCap数据集上的效果对比,可以直观地看到,相比其他方法,STG-Avatar(Ours)在重建衣服褶皱、身体轮廓等非刚性部分的细节上要清晰和真实得多。


在难度更高的THUman4.0数据集上,STG-Avatar同样表现出色,无论是衣服的纹理、褶皱还是面部特征,都还原得惟妙惟肖。

效率对比

效率是STG-Avatar的另一大杀手锏。在单张RTX 4090显卡上,训练时间仅需25分钟,而渲染速度则达到了惊人的60 FPS,真正实现了实时交互。相比之下,NeRF类方法需要数天训练,而其他3DGS方法要么训练更慢,要么效果稍逊。

消融实验

为了验证框架中各个模块的有效性,作者还进行了消融研究。结果表明,无论是光流引导的采样,还是STG模块,都对最终的性能提升起到了至关重要的作用。

总结

CV君认为,STG-Avatar的巧妙之处在于它没有试图用一个“万能模型”去解决所有问题,而是将刚性运动和非刚性细节这两个不同性质的问题解耦,并用最适合的技术(LBS和STG)分别应对,最后通过光流进行智能化的资源调配。这种“分而治之”的哲学,在资源有限的情况下,实现了效果和效率的最佳平衡。

大家对这个方法怎么看?欢迎在评论区留下你的看法!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方不再退让!达尔文港风波升级,5亿澳元开启澳方毁约买单路

中方不再退让!达尔文港风波升级,5亿澳元开启澳方毁约买单路

快看张同学
2026-02-03 09:48:46
黄金、白银直线飙涨!特朗普突发!事关关税!

黄金、白银直线飙涨!特朗普突发!事关关税!

证券时报e公司
2026-02-03 07:57:16
外交部:敦促美方严肃认真对待中方关切,要求美国执法部门立即停止错误行径

外交部:敦促美方严肃认真对待中方关切,要求美国执法部门立即停止错误行径

环球网资讯
2026-02-02 15:32:43
雷军:第一代小米SU7已停售 个别车商为了蹭流量又哭又闹 欢迎大家帮我们举报

雷军:第一代小米SU7已停售 个别车商为了蹭流量又哭又闹 欢迎大家帮我们举报

快科技
2026-02-02 12:42:07
郑爽张恒家街头互撕!郑爽满头白发疑精神失常,孩子哭到发抖没人管

郑爽张恒家街头互撕!郑爽满头白发疑精神失常,孩子哭到发抖没人管

八卦王者
2026-02-03 10:08:04
晚年的李作鹏每日无酒肉不欢,在审查时要求改善生活,吃肉喝酒?

晚年的李作鹏每日无酒肉不欢,在审查时要求改善生活,吃肉喝酒?

春秋砚
2026-02-02 16:30:07
具俊晔心碎发声「我的熙媛」:下次再见,我们要在一起一辈子

具俊晔心碎发声「我的熙媛」:下次再见,我们要在一起一辈子

ETtoday星光云
2026-02-02 19:34:09
一个残酷的真相:夜空中7000颗星星,全都位于银河系范围内

一个残酷的真相:夜空中7000颗星星,全都位于银河系范围内

观察宇宙
2026-01-31 20:29:00
伊朗武装部队总参谋长:地区战火将波及美国及其盟友

伊朗武装部队总参谋长:地区战火将波及美国及其盟友

财联社
2026-02-02 15:53:04
新春走基层|独龙江戍边民警带我“出任务”:给文面奶奶拍下“人生照片”

新春走基层|独龙江戍边民警带我“出任务”:给文面奶奶拍下“人生照片”

新华社
2026-02-02 15:34:42
某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

戗词夺理
2026-01-24 16:05:41
大S逝世一周年雕像揭幕,具俊晔设计寄思念,雨中悼念看哭众人

大S逝世一周年雕像揭幕,具俊晔设计寄思念,雨中悼念看哭众人

很哥
2026-02-02 22:36:10
爱泼斯坦的文件正在曝光!塞尔维亚总统武契奇:预计48小时内伊朗将遭到袭击,“或者有其他重大事件发生”

爱泼斯坦的文件正在曝光!塞尔维亚总统武契奇:预计48小时内伊朗将遭到袭击,“或者有其他重大事件发生”

浙江之声
2026-02-02 15:38:46
蔡康永发文缅怀大S,说大S应该被好好疼爱的

蔡康永发文缅怀大S,说大S应该被好好疼爱的

素素娱乐
2026-02-03 07:27:12
中美俄,供养着一大群废物

中美俄,供养着一大群废物

智先生
2026-02-02 21:11:32
江苏省教育厅发布:假期不仅是孩子学业休整的驿站,更是全面发展的沃土,请理性看待校外培训,莫让假期变成“第三学期”

江苏省教育厅发布:假期不仅是孩子学业休整的驿站,更是全面发展的沃土,请理性看待校外培训,莫让假期变成“第三学期”

扬子晚报
2026-02-02 14:41:49
赵匡胤帐下的五虎大将,都有谁?他们的结局如何,谁混得最好?

赵匡胤帐下的五虎大将,都有谁?他们的结局如何,谁混得最好?

凡人侃史
2026-02-01 23:47:51
大S的两个孩子,不参加妈妈的雕像仪式原因曝光

大S的两个孩子,不参加妈妈的雕像仪式原因曝光

素素娱乐
2026-02-03 12:06:34
哪些人情世故是你长大后才明白的?网友:贵人不可贱用

哪些人情世故是你长大后才明白的?网友:贵人不可贱用

解读热点事件
2026-01-29 04:45:45
发现个奇怪现象:电车没有“干掉”油车,却“干掉”了汽车修理厂

发现个奇怪现象:电车没有“干掉”油车,却“干掉”了汽车修理厂

刘哥谈体育
2026-01-19 11:46:50
2026-02-03 13:23:03
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5339文章数 64600关注度
往期回顾 全部

科技要闻

1.25万亿美元!xAI员工赢麻了

头条要闻

男子投200万做租赁业务起步即爆单 每周收租金超百万

头条要闻

男子投200万做租赁业务起步即爆单 每周收租金超百万

体育要闻

“也许我的一小步,会成为中国足球的一大步”

娱乐要闻

小S致词:感谢具俊晔陪伴大S的最后3年

财经要闻

精神病医院骗保内幕调查:住院相当于坐牢

汽车要闻

问界M6官图首发 以年轻化设计叩击25-30万级市场

态度原创

数码
家居
房产
公开课
军事航空

数码要闻

捡便宜买2TB三星990 PRO被骗:速度仅20MB/s!Windows竟还显示正品

家居要闻

极简木艺术 典雅自在

房产要闻

Bling生活有星光丨千人共聚,全国润邻齐聚海岛春晚

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

委内瑞拉外长会见美外交使团团长

无障碍浏览 进入关怀版