网易首页 > 网易号 > 正文 申请入驻

Large Avatar Model:单图打造写实3D交互数字人,跨平台驱动渲染

0
分享至



论文作者来自阿里巴巴通义实验室的 3D 团队。第一作者何益升,本科毕业于武汉大学,博士毕业于香港科技大学;通讯作者原玮浩,本科毕业于浙江大学,博士毕业于香港科技大学;团队 Leader 董子龙,本科博士均毕业于浙江大学。

三维数字头像的建模、驱动和渲染是计算机图形学与计算机视觉的重要课题之一,在虚拟会议、影视制作、游戏开发等领域有广泛应用。传统方法依赖多视角数据或视频序列训练,存在计算成本高、输入条件难、泛化能力弱等问题。

近年来,基于神经辐射场(NeRF)和 3D 高斯溅射(Gaussian Splatting)的技术虽提升了建模质量,但仍面临多视角/视频输入训练的依赖以及神经后处理导致的渲染效率低的问题。

LAM(Large Avatar Model)的提出,旨在通过单张图像实现实时可驱动的 3D 高斯头像生成,突破传统方法对视频数据或复杂后处理的依赖,为轻量化、跨平台的 3D 数字人应用提供新思路。



  • 论文标题:LAM:Large Avatar Model for One-shot Animatable Gaussian Head
  • 论文地址:https://arxiv.org/abs/2502.17796
  • 项目主页: https://aigc3d.github.io/projects/LAM
  • 代码库:https://github.com/aigc3d/LAM
  • 国外 Demo:https://huggingface.co/spaces/3DAIGC/LAM
  • 国内 Demo:https://www.modelscope.cn/studios/Damo_XR_Lab/LAM_Large_Avatar_Model



核心亮点:

单图秒级生成超写实 3D 数字人

WebGL 跨平台超实时驱动渲染,手机跑满 120FPS

低延迟实时交互对话数字人 SDK 已全开源

方法

LAM 的核心目标是:单图输入、一次前向传播生成可驱动的 3D 高斯头像,无需后处理网络,并兼容传统图形渲染管线实现跨平台实时渲染。其技术框架围绕以下核心突破展开:



规范化空间的三维高斯球生成

  • 人头模型先验引导:LAM 基于 FLAME 头部模板的顶点来初始化高斯球位置,结合形状混合形变(Blendshapes)与骨骼线性蒙皮(LBS)的驱动机制,将三维头像的生成置于规范化空间(Canonical Space),统一不同表情与姿态的几何表达,降低生成复杂度。

  • 多模态特征交互 Transformer:LAM 利用预训练的 DinoV2 提取输入图像的多层级特征,通过堆叠式交叉注意力模块(Cross-Attention)让 3D 空间中的点特征与 2D 空间中的图像特征进行交互,预测 3D 高斯球的位置、颜色、透明度等属性,并引入形变偏移(Offset)优化人头的几何形状(如头发、饰品等)。

  • 细分网格增强细节:FLAME 原始顶点数只有 5023 个,表达能力有限,LAM 通过网格细分算法(Mesh Subdivision)增加点密度(默认两次细分达 81424 点),从而提升头发、胡须等细节的建模能力。使用不同的细分程度,也可以在模型生成质量与渲染速度之间进行平衡。

无需神经后处理的驱动与渲染

  • 传统动画驱动机制直接迁移:生成的规范空间中的 3D 高斯人头,可直接使用骨骼线性混合蒙皮(LBS)与形状混合形变(Blendshapes)参数,驱动表情与姿态变化,无需额外神经网络参与动画或渲染计算,达到超实时的渲染效率。

  • 海量视频数据训练:传统 3D 数字人的训练数据要求苛刻,有时甚至需要多视角视频数据,难以 scale up,而 LAM 的模型架构使其可以在普通的单目视频上进行训练,从而可以很轻易地 scale up。在模型训练中,一段视频中取任意一帧作为输入图片,生成 3D 高斯人头,然后基于视频检测得到的头部姿态和面部表情,渲染不同帧的图片,与真值之间求损失来优化生成网络。

跨平台超实时渲染架构

  • 轻量化 3D 高斯表达:LAM 的驱动和渲染没有任何神经网络的参与,是直接使用传统动画驱动 + 三维高斯溅射渲染,因此可以直接兼容传统图形管线。

  • WebGL 渲染:LAM 基于 WebGL 实现了表情、动作驱动和三维高斯溅射的渲染,天然支持跨平台的特性,可以在不同设备如电脑、手机、电视、大屏等设备上进行直接驱动和渲染,效率达到超实时,如 8W 点模型可以在 Macbook 上轻松跑满屏幕上限 120FPS,2W 点模型甚至能在移动端跑到 120FPS。



实验

定量结果

论文在 VFHQ(高分辨率视频人脸数据集)与 HDTF(高清对话视频数据集)上验证 LAM 性能,对比对象包括 NeRF 方法及 3D 高斯溅射方法,指标涵盖重建质量、身份一致性、动画精度与渲染效率。



从结果来看,LAM 以超写实的图像质量刷新记录,以无神经网络的超轻量模型击败之前的重网络模型。

更多应用

LAM 不仅限于单图生成,也可以结合图像大模型进行实现跨模态艺术创作:

  • 文本驱动生成

结合文生图模型,用户输入提示词(如「戴帽子的卡通男性」)生成任意风格的人头图像,LAM 可以直接转换为可驱动三维高斯模型。如图所示,生成的头像可准确保留提示中的服饰元素(帽子)与艺术风格(卡通化):



  • 3D 风格迁移

通过图像编辑模型对输入图像进行年龄、妆容等编辑,LAM 可以同步更新高斯属性。例如将真人头像转化为油画风格时,模型保留几何结构仅调整颜色与纹理等:



交互对话数字人解决方案

以 LAM 为基础,通义实验室构建了完整的智能交互对话数字人解决方案,融合通义千问大语言模型、通义语音算法、通义数字人驱动算法,构建成熟、鲁棒的完整工程方案,实现轻量化、低成本、低延迟、跨平台的端侧渲染,支持智能客服、情感陪伴、教育培训等产品。

目前,完整的解决方案均已开源,包括整个链路中的各个模块。即使用开源的代码库,就可以实现输入一张图片,生成超写实 3D 数字人,进行实时的对话聊天。


https://mp.weixin.qq.com/s/41mpwUeWFARsXRWuDrCBZA

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
成都85亿三国蜀汉城获批!2026动工,再造“大唐不夜城”?

成都85亿三国蜀汉城获批!2026动工,再造“大唐不夜城”?

冬天来旅游
2025-11-13 09:44:28
2 亿英镑天价!皇马求购切尔西中场天才,盛赞 “绝对巨星”

2 亿英镑天价!皇马求购切尔西中场天才,盛赞 “绝对巨星”

奶盖熊本熊
2025-11-14 07:08:34
杨瀚森第三次被下放,意味着什么?他会被开拓者放弃吗?

杨瀚森第三次被下放,意味着什么?他会被开拓者放弃吗?

一个体育黑
2025-11-14 11:16:43
骆家辉警告中国:最好不要自主生产尖端芯片,这不是美国想看到的

骆家辉警告中国:最好不要自主生产尖端芯片,这不是美国想看到的

易昂杨
2025-11-13 19:57:23
蒋介石曾说:亡于日本,能为亡国奴;亡于共党,为奴亦不能

蒋介石曾说:亡于日本,能为亡国奴;亡于共党,为奴亦不能

混沌录
2025-10-26 16:11:11
海港表态!为奥斯卡提供援助,奥斯卡与中方友谊,让巴西媒体感动

海港表态!为奥斯卡提供援助,奥斯卡与中方友谊,让巴西媒体感动

小金体坛大视野
2025-11-13 11:15:49
洛杉矶奥运会赛程正式公布,首金不再是射击

洛杉矶奥运会赛程正式公布,首金不再是射击

五星体育
2025-11-13 22:48:37
北京男子违停又突然开车门,“开门杀”致一骑车人抢救无效死亡,司机负全责被判1年2个月,视频曝光

北京男子违停又突然开车门,“开门杀”致一骑车人抢救无效死亡,司机负全责被判1年2个月,视频曝光

极目新闻
2025-11-13 16:29:14
“买得起,用不起”,如果不是很有钱,劝你别买这5种电器

“买得起,用不起”,如果不是很有钱,劝你别买这5种电器

巢客HOME
2025-11-13 08:35:03
中国有权在日本驻军,高市早苗闯了大祸,日方意识到大事不妙!

中国有权在日本驻军,高市早苗闯了大祸,日方意识到大事不妙!

荷兰豆爱健康
2025-11-12 12:42:25
奋进“十五五”|奋力续写“两大奇迹”新篇章

奋进“十五五”|奋力续写“两大奇迹”新篇章

中国经济网
2025-11-13 07:38:07
刘若英懵了!爷爷凭《沉默的荣耀》爆火,这波祖上荣光藏多少硬气

刘若英懵了!爷爷凭《沉默的荣耀》爆火,这波祖上荣光藏多少硬气

东方不败然多多
2025-11-03 11:42:09
独行侠超市开张:汤普森+欧文+浓眉哥,全部要交易!

独行侠超市开张:汤普森+欧文+浓眉哥,全部要交易!

爱体育
2025-11-13 23:17:30
金一南曾发表观点:如果战争来了,一大批“办公室将军”将被淘汰

金一南曾发表观点:如果战争来了,一大批“办公室将军”将被淘汰

文史旺旺旺
2025-11-13 21:42:07
已成闭环!西甲官方晒20队胜负关系图:谁都可能战胜谁

已成闭环!西甲官方晒20队胜负关系图:谁都可能战胜谁

懂球帝
2025-11-13 15:45:12
十大网红模特:把“人间清醒”玩明白了,不追顶流偏走野路子!

十大网红模特:把“人间清醒”玩明白了,不追顶流偏走野路子!

妮妮玩不够
2025-11-01 15:45:37
魔幻!我被疑似西贝的律师威胁了

魔幻!我被疑似西贝的律师威胁了

首席品牌观察
2025-11-13 10:35:57
霍中妍近照引热议!集齐妈妈品格奶奶美貌,这才是顶配千金

霍中妍近照引热议!集齐妈妈品格奶奶美貌,这才是顶配千金

手工制作阿歼
2025-11-13 13:39:00
社会上曾流传刘亚楼对军衔不满?吴法宪:不会有太大的意见和看法

社会上曾流传刘亚楼对军衔不满?吴法宪:不会有太大的意见和看法

历史龙元阁
2025-11-13 11:10:08
意大利恐连3届无缘世界杯!主帅不接受嘘声,下1场须净胜挪威9球

意大利恐连3届无缘世界杯!主帅不接受嘘声,下1场须净胜挪威9球

体育妞世界
2025-11-14 10:36:48
2025-11-14 11:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11713文章数 142505关注度
往期回顾 全部

科技要闻

火箭成功回收 贝索斯终于追上马斯克一小步

头条要闻

男子花42万相亲次日闪婚 妻子1个月后失联:他是妈宝男

头条要闻

男子花42万相亲次日闪婚 妻子1个月后失联:他是妈宝男

体育要闻

跟豪门传了十年绯闻,他却偏要“择一队终老”

娱乐要闻

《国色天香》编剧发长文质疑古二?

财经要闻

前10月全国房地产开发投资同比降14.7%

汽车要闻

BJ40增程元境智行版上市 限时焕新价19.48万元

态度原创

数码
家居
本地
健康
公开课

数码要闻

AMD FSR重大更新Redstone终于来了!《使命召唤》中首秀:可惜只有一个功能

家居要闻

莫奈时间 重构先锋概念

本地新闻

云游安徽 | 江声浩荡阅千年,文脉相承看芜湖

金振口服液助力科学应对呼吸道疾病

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版