「我们解决了实时数字人最大的痛点——不是画质,是时间。」微软亚洲研究院的工程师在论文开篇这样写道。
他们说的痛点很具体:现有技术要么只能生成几秒短视频,要么延迟高到无法直播。团队提出的Live Avatar,号称能实现无限时长、低延迟的音频驱动数字人直播。
![]()
技术路线:为什么选"流式"而非"整段生成"
核心思路是把视频切成小块逐帧处理。传统方法需要等整段音频输入完毕才开始生成,延迟动辄数秒;Live Avatar采用因果流式架构,每收到一帧音频就输出对应视频帧。
关键设计是滑动窗口注意力机制——模型只"记住"最近几百帧的信息,而非全部历史。这样既保证了实时性,又避免了无限时长带来的显存爆炸。
人物动作:三位一作的工程取舍
论文三位共同一作分别负责不同模块:音频编码、视觉生成、流式推理框架。这种分工本身反映了技术难度——单一架构无法同时满足低延迟、高画质、无限时长三个目标。
![]()
他们在GitHub开源了推理代码,但训练代码和预训练权重未公开。这种"半开源"策略常见于工业界项目:展示技术可行性,保留核心壁垒。
商业逻辑:谁需要"无限时长"的数字人
24小时直播带货、虚拟客服、实时翻译主播——这些场景的共同点是:时长不可控,延迟零容忍。现有方案要么牺牲实时性用录播拼接,要么牺牲时长人工轮换。
技术报告中的演示视频显示,数字人说话时口型与音频基本同步,但头部姿态和眨眼频率仍有轻微不自然。这说明"能用"和"好用"之间还有距离。
项目已获CVPR 2025录用,代码仓库在发布两周内收获800+星标。数字人赛道正在从"炫技 demo"转向"工程落地",而时间,成了新的竞争维度。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.