网易首页 > 网易号 > 正文 申请入驻

告别倾听「扑克脸」,UniLS框架来了,刷新数字人对话SOTA

0
分享至



本文由来自盛大东京 AI 研究院、东京大学、和东京科学大学的研究者合作完成。作者团队在数字人方向有长期积累。部分工作为共同第一作者 Xuangeng Chu (https://xg-chu.site) 和 Ruicong Liu (https://ruicongliu.github.io) 在盛大东京研究院担任研究实习生时完成。

在游戏 NPC、虚拟主播、在线客服等数字人对话场景中,倾听时的 “扑克脸”问题一直是行业长期痛点 —— 虚拟人说话时口型可以做到精准同步,但倾听时却表情僵硬、毫无反应,严重影响对话的自然感和沉浸感。盛大 AI 研究院(东京)与东京大学联合提出UniLS(Unified Listening and Speaking),首个仅凭双轨音频即可端到端同时驱动说话和倾听面部动作的统一框架。该方法在说话精度上达到 SOTA,倾听自然度分布指标提升高达 44.1%,同时支持 500+ FPS 的实时生成,已被 CVPR 2026 录用。



  • 论文地址:https://arxiv.org/abs/2512.09327
  • 项目主页: https://xg-chu.site/project_unils/
  • 代码地址: https://github.com/xg-chu/UniLS
  • 数据地址: https://huggingface.co/datasets/xg-chu/UniLSTalkDataset

背景

构建逼真的对话式数字人需要同时处理说话和倾听两种状态。说话时需要精准的口型同步和面部表情协调,倾听时则需要展现自然的点头、眨眼和微表情等互动反应。然而,现有方法大多只关注单向生成:speak-only 方法(如 ARTalk、DiffPoseTalk 等)仅生成说话动作,listen-only 方法仅生成倾听反应,二者无法在统一框架内协同工作。

唯一尝试联合建模的 DualTalk 依赖对方说话者的预计算面部序列作为额外输入,导致系统非端到端、无法实时部署。UniLS 针对这一空白,提出将倾听行为分解为 “内在运动先验” 与 “外部音频调制” 两个独立组成部分,通过两阶段训练范式分别学习,仅以双轨音频作为输入,端到端地生成双方的面部动作。



图 1: 现有方法与本文提出的方案之间的对比。大多数之前的研究仍局限于单向生成,即仅针对 “说话” 或仅针对 “倾听”。先前的 “说 - 听” 交互方法需要先生成演讲者 A 的面部序列,然后才能产生演讲者 B 的动作。这种对演讲者 A 生成过程的依赖,使其无法实现端到端训练,并阻碍了实时性能。相比之下,本文方法提供了一个端到端框架,能够实现统一且实时的 “说 - 听” 动作生成。

UniLS 的方法和设计

1. 核心发现:音频 - 动作关联的不平衡

为什么直接端到端训练会导致倾听僵硬?研究者通过对音频特征与面部动作参数在 t-SNE 空间的分布分析揭示了根本原因。如下图 1 所示,说话时音频与面部动作高度关联,二者在嵌入空间中紧密聚集、距离一致性强;而倾听时面部动作与对方音频的关联非常微弱 —— 因为倾听中的许多行为(如眨眼频率、微表情、肌肉协调)本质上独立于对方语音信号。

这种不平衡导致联合训练时网络能轻松为说话分支学到强映射,却为倾听分支接收到的监督信号不足,使其退化为安全的、低方差的静态表情。这一发现直接启发了 UniLS 的核心设计思路:不应将倾听建模为音频到动作的直接映射,而应分两步走 —— 先学习运动本身的内在规律,再引入音频进行调制。



图 2: 面部表情参数与对应音频特征之间的相关性。对于说话状态,音频是指说话者自身的语音;对于倾听状态,音频则来自对方的语音。

2. 两阶段训练框架

Stage 1:无音频生成器训练 —— 学习内在运动先验。第一阶段在大规模非配对多场景视频数据上训练一个无音频的自回归生成器。训练数据来自 CelebV、TalkingHead-1KH、TEDTalk、VFHQ 等多个数据集,涵盖新闻播报、访谈、演讲、日常对话等多种场景,共计 546.5 小时。面部动作使用 FLAME 3D 参数化模型表示(包含表情、头部姿态和眼球注视),通过多尺度 VQ 编解码器离散化。生成器以过去的运动 chunk 和风格嵌入为输入预测下一个运动 chunk。由于完全不使用音频,模型只能依赖运动本身的时序规律来预测未来,从而自然地学习到眨眼频率、头部微动、表情转换等内在运动先验。

Stage 2:音频驱动微调 —— 引入双轨音频调制。第二阶段使用 Seamless Interaction 配对对话数据(251.5 小时说话 + 406.0 小时倾听)对生成器进行微调。架构在 Stage 1 基础上新增两个交叉注意力层:一个关注说话者 A 自身的音频(驱动口型同步和面部表情),另一个关注说话者 B 的音频(调制倾听反应)。Stage 1 的自注意力和 FFN 骨干权重通过 LoRA 高效微调,新增的交叉注意力层从头训练。这一设计既保留了 Stage 1 习得的丰富内在运动先验,又赋予模型根据双轨音频信号分别调制说话和倾听的能力。



图 3: 两阶段训练策略概览。第一阶段: 在不使用音频的情况下,基于非配对的多场景视频数据训练一个无音频生成器。该模型根据过去的动作序列和风格嵌入,预测未来的动作块。第二阶段: 在配对的对话片段上对生成器进行微调。通过交叉注意力机制,将说话者 A 和说话者 B 的音频作为条件输入,从而生成由音频驱动的 “说 - 听” 动作。

实验结果

1. 定量对比(Seamless Interaction 数据集)



表 1: 在 Seamless Interaction 测试集上评估说话和聆听时的面部动作。分别用金色和银色表示第一名和第二名。

表 1 的量化指标显示 UniLS 在全部指标上取得最优:说话方面,LVE 降至 5.83、MHD 降至 1.89,表明模型不仅精确追踪了音素 - 动作对应,还捕捉到了上脸参与和头 - 颌协调运动等动态特征。倾听方面,FDD 从 DualTalk 的 43.58 大幅降至 17.12,F-FID 从 13.143 降至 4.304,P-FID 从 0.079 降至 0.038,分布指标提升高达 44.1%,有效解决了倾听僵硬问题。

2. 用户研究

与 DualTalk 相比,超过 91% 的用户偏好 UniLS 的倾听反应自然度,90% 偏好其表情自然度,86% 偏好其口型同步质量。



表 2: UniLS 的用户研究结果。数字(%)表示用户更喜欢本文方法而非各基线方法的比例。“同步” 衡量唇部同步性,而 “Exp”、“Re-act” 和 “Pose” 分别评估面部表情的自然度、聆听反应和头部姿势。

3. 实时性能

在出色的生成质量之外,UniLS 在单张 RTX 5090 GPU 上以 560.6 FPS 运行(参数量 421.3M),显著优于 ARTalk * 的 357.7 FPS(489.5M),而 DualTalk 由于非端到端设计无法支持实时。UniLS 在质量、速度与规模之间实现了最优平衡。

总结

UniLS 是首个能够生成统一 “说 - 听” 面部动作的端到端音频驱动框架。通过对音频与动作相关性的深入分析,作者发现了传统端到端训练中导致 “倾听僵硬感”(listening stiffness)的根本原因。基于这一见解,该研究引入了一种两阶段训练范式,将内部动作先验的学习与音频驱动的调制过程分离开来。在大型对话数据集上进行的大量实验表明,UniLS 实现了优秀的口型同步准确度,丰富多样且自然的倾听表情和出色的实时性能。总而言之,UniLS 为对话式数字人奠定了基础,并为极具互动感、逼真的 AI 人机交互开启了新的可能性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
形势有多严峻?才4月份,广东就有公司放长假,多少人又要失业

形势有多严峻?才4月份,广东就有公司放长假,多少人又要失业

慧翔百科
2026-04-24 11:46:34
“霍尔木兹决战”,收兵了?

“霍尔木兹决战”,收兵了?

中国新闻周刊
2026-04-24 16:35:57
中际旭创市值突破1万亿,山东诞生新首富

中际旭创市值突破1万亿,山东诞生新首富

中国能源网
2026-04-24 17:42:04
“14岁少年手搓涡轮喷气发动机”翻车  网友:哪家少爷?

“14岁少年手搓涡轮喷气发动机”翻车 网友:哪家少爷?

可达鸭面面观
2026-04-24 15:36:05
出乎意料!2032奥运主办地确定了,不知名小城市以72:5碾压当选

出乎意料!2032奥运主办地确定了,不知名小城市以72:5碾压当选

安珈使者啊
2026-04-24 11:44:45
“夜店神器”夜光渔网袜在网上火了 太性感了

“夜店神器”夜光渔网袜在网上火了 太性感了

3DM游戏
2026-04-24 06:40:07
伊朗新任最高领袖伤情严重 面部烧伤已影响发声能力——纽约时报

伊朗新任最高领袖伤情严重 面部烧伤已影响发声能力——纽约时报

桂系007
2026-04-24 02:13:45
5米级方盒子卷王,iCAR V27不到17万起售,全是黑科技

5米级方盒子卷王,iCAR V27不到17万起售,全是黑科技

道哥说车
2026-04-24 10:02:11
多国反对,中国专机抵美,G20峰会出现变故,80岁总统硬刚特朗普

多国反对,中国专机抵美,G20峰会出现变故,80岁总统硬刚特朗普

小影的娱乐
2026-04-24 16:20:33
静候赵心童VS丁俊晖!墨菲轰4杆破百13-3肖国栋,晋级世锦赛八强

静候赵心童VS丁俊晖!墨菲轰4杆破百13-3肖国栋,晋级世锦赛八强

全景体育V
2026-04-24 19:45:38
徐静蕾美国超市偶遇,51岁胖到认不出,黄立行也老了许多

徐静蕾美国超市偶遇,51岁胖到认不出,黄立行也老了许多

笑饮孤鸿非
2026-04-23 20:57:09
芯片松绑4个月,中国一块也没买,中国不急美国急,形势反转了

芯片松绑4个月,中国一块也没买,中国不急美国急,形势反转了

王新喜
2026-04-23 20:37:56
微软推员工“自愿买断式离职”约8750人符合条件!网友:年龄+工龄≥70,自己算一下

微软推员工“自愿买断式离职”约8750人符合条件!网友:年龄+工龄≥70,自己算一下

小星球探索
2026-04-24 20:41:59
触目惊心!央视曝光上海一中医馆:从医生到病人全是演员!

触目惊心!央视曝光上海一中医馆:从医生到病人全是演员!

番外行
2026-04-24 08:59:12
很多地方单位拖欠工资,不是不想发是真的周转不过来

很多地方单位拖欠工资,不是不想发是真的周转不过来

爆角追踪
2026-04-24 18:34:02
快讯!伊朗政权变天了!

快讯!伊朗政权变天了!

达文西看世界
2026-04-24 08:21:33
4月24日俄乌最新:俄军不战而降,亚速海岸即将被切断?

4月24日俄乌最新:俄军不战而降,亚速海岸即将被切断?

西楼饮月
2026-04-24 19:21:02
72岁王健林,被逼到崩溃边缘......

72岁王健林,被逼到崩溃边缘......

酷温coolwin
2026-04-24 16:46:47
31人抢一辆严重受损8400元起拍的小鹏汽车,有人出36800元拍下,法院称车主已在车祸中身亡

31人抢一辆严重受损8400元起拍的小鹏汽车,有人出36800元拍下,法院称车主已在车祸中身亡

极目新闻
2026-04-24 17:49:19
当不成总统了?美国四位前总统集体发声,打响扳倒特朗普的第一枪

当不成总统了?美国四位前总统集体发声,打响扳倒特朗普的第一枪

军机Talk
2026-04-24 12:07:37
2026-04-24 21:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12851文章数 142635关注度
往期回顾 全部

科技要闻

DeepSeek V4牵手华为,价格依然"屠夫级"

头条要闻

男子抚养14年儿子非亲生 妻子结婚摆酒前跟别人在一起

头条要闻

男子抚养14年儿子非亲生 妻子结婚摆酒前跟别人在一起

体育要闻

里程碑之战拖后腿,哈登18分8失误

娱乐要闻

停工16个月!赵露思证实接拍新剧

财经要闻

LG财阀内斗:百亿美元商业帝国争夺战

汽车要闻

零跑Lafa5 Ultra北京车展上市:11.88-12.48万

态度原创

艺术
教育
家居
亲子
时尚

艺术要闻

2025最绘画--第四届中国青年油画作品展 | 油画选刊(三)

教育要闻

尊敬不是优越感

家居要闻

自然肌理 温润美学

亲子要闻

韩国叔叔又来看小满了 看看小叔子说话那个表情 笑死...

水晶专场 || 一眼就沦陷的绝美水晶,百元级的快乐

无障碍浏览 进入关怀版