网易首页 > 网易号 > 正文 申请入驻

Soul App开源实时数字人生成模型SoulX-FlashTalk

0
分享至

近期,Soul App AI团队(Soul AI Lab)已开源实时数字人生成模型SoulX-FlashTalk 。这是首个能够实现0.87s亚秒级超低延时、32fps高帧率,并支持超长视频稳定生成的14B数字人模型。

在持续建设AI能力的过程中,Soul团队始终致力于通过技术创新实现更沉浸、多元的交互体验。此次开源新模型,除了在速度、效果、延迟和保真度上表现出色,更重要的是,为行业提供了切实可应用的业务解决方案,推动大参数量实时生成式数字人迈入可具体商用落地阶段。



Project Page:

Technical Report:

Source Code: https://github.com/Soul-AILab/SoulX-FlashTalk

HuggingFace:

SoulX-FlashTalk亮点:

四大关键指标,重塑实时互动体验

0.87s 亚秒级延时,即时交互

在实时视频交互中,延迟是决定用户体验的核心。SoulX-FlashTalk 凭借全栈加速引擎的极致优化,成功将首帧视频输出的延时降至0.87s亚秒级。

  • “零延迟”即时反馈: 首次让 14B 级大模型数字人具备了即时反应能力,彻底消除了传统大模型生成的“滞后感”。
  • 全场景交互: 无论是视频通话中的即时对答、直播间弹幕的秒级互动,还是智能客服的实时响应,均能实现自然、流畅的深度对话。

32fps 高帧率,重新定义“流畅”

尽管搭载了 14B 参数量的超大 DiT 模型,SoulX-FlashTalk 的推理吞吐量仍高达 32 FPS。

  • 超越行业标准:远超直播所需的 25 FPS 实时标准,确保每一帧画面都丝滑顺畅。
  • 大模型,高性能:证明了 140 亿参数大模型在经过深度加速优化后,依然可以拥有极佳的运行效率。

超长视频稳定清晰生成,告别画面“崩坏”

数字人视频最怕在生成中出现人物面部不一致或显著画质下降的问题。SoulX-FlashTalk 凭借独家的自纠正双向蒸馏技术,解决了这一痛点:

  • 无感纠错,画质无损:引入多步回溯自纠正机制,模拟长序列生成的误差传播并进行实时修正,就像为 AI 装上了“实时校准器”,主动恢复受损特征。
  • 超长视频,稳定生成: 不同于传统的单向依赖,SoulX-FlashTalk 完全保留了双向注意力机制,让每一帧生成都能同时参考过去与隐含的未来上下文,从根本上压制身份漂移,这意味着在超长直播中,主播的口型、面部细节和背景环境将始终保持一致,不会出现模糊或变形。

全身动作交互:不只是“口型对齐”

SoulX-FlashTalk 突破了传统数字人仅能实现面部“对口型”的局限,带来了更加真实自然的全身肢体动态表现。

  • 全身肢体动态合成: 不同于仅对脸部进行局部重绘的方案,SoulX-FlashTalk 支持受音频驱动的全身动作生成,产生真实自然的人体动态。
  • 高精细手部表现: 基于14B DiT的强大建模能力,系统能够有效消除手部畸形与运动模糊,精准呈现结构清晰、纹理锐利的手部动作细节。
  • 灵动而不失稳定: 在追求大幅度动态表现力的同时,系统依然维持了极高的身份一致性(Subject-C 达 99.22),实现了动作灵活性与画面稳定性的完美平衡。

核心方案:

双向蒸馏+多步回溯自纠正机制

在行业中,传统数字人生成方案大多面临画面生成时间长、延迟高、生成效果差、效果不稳定、保真度低等问题。

在这样的背景下,SoulX-FlashTalk正式开源,为了平衡生成质量与推理速度,团队采用了两阶段训练策略:

第一阶段:延迟感知时空适配 (Latency-Aware Spatiotemporal Adaptation),结合动态长宽比分桶策略进行微调,使模型适应较低的分辨率和更短的帧序列;

第二阶段:自纠正双向蒸馏 (Self-Correcting Bidirectional Distillation)。利用 DMD 框架压缩采样步数并移除无分类器引导(CFG),实现加速;多步回溯自纠正机制,通过 autoregressively 合成连续分块(最多 K个chunks),显式模拟长视频生成的误差传播;随机截断策略,在训练中在第 k(< K)个分块数进行反向传播,实现高效且无偏的显存友好优化 。



训练流程示意图

同时,团队进行实时推理加速系统优化, 针对 8-H800 节点设计的全栈加速引擎实现了亚秒级延迟 ,包括了

  • 混合序列并行 (Hybrid Sequence Parallelism):整合 Ulysses 和 Ring Attention,使单步推理速度提升约5倍算子级优化:采用针对Hopper架构优化的FlashAttention3,通过异步执行进一步减少 20% 的延迟
  • 3D VAE 并行化:引入空间切片并行解码策略,实现VAE处理的5倍加速
  • 整链优化:通过 torch.compile 实现全流程图融合与内存优化

值得注意的是,在Soul AI团队发布的技术报告中指出,传统的单向(Unidirectional)模型在处理全局时间结构时存在约束,容易导致时间不一致和身份漂移。因此,团队完全保留双向注意力机制(All-to-All 交互),使模型能同时利用过去与隐含的未来上下文,显著提升了生成的一致性与细节质量 。



SoulX-FlashTalk推理架构流程图

AI+实时体验

赋能行业多元业务场景

从模型表现来看,通过在 TalkBench-Short 和 TalkBench-Long 数据集上的定量对比,展示了SoulX-FlashTalk在视觉质量、同步精度及生成速度上的全面领先:

在短视频评测中,它以3.51的ASE和4.79的IQA刷新了视觉保真度记录,并以1.47的Sync-C分数表现出最优的口型同步精准度;在5分钟以上的长视频生成中,系统凭借双向蒸馏策略有效抑制了同步漂移,取得了1.61的Sync-C优异成绩;此外,作为14B参数规模的大模型,它在长短视频任务中均维持了32 FPS 的高吞吐量,不仅远超25 FPS的实时性基准,更在推理效率上显著优于行业同类主流模型。



依托模型优越的性能表现,开源后,SoulX-FlashTalk将有机会在多领域、行业实际落地,创造更多价值。例如,在电商领域打造7×24小时AI直播间,特别是,此前传统的数字人直播长时间运行后常会出现嘴型对不上或画质模糊的问题,而SoulX-FlashTalk可以支持全天候的流畅视频直播,即便是在高强度的实时互动中(如回复弹幕),也能保持如同真人出镜的高保真画质,极大降低直播成本。

此外,在短视频制作、AI教育、多元互动场景NPC交互、AI客服等方向,模型也提供了高质量、可落地、可接入业务系统的解决方案。

对Soul而言,SoulX-FlashTalk的发布也意味着团队进入了开源新阶段。去年10月底,Soul AI团队开源语音合成模型SoulX-Podcast,在发布后快速登顶开源社区平台HuggingFace TTS(Text To Speech)趋势榜,目前该模型在GitHub上收获了超3100星标。

接下来,在聚焦语音对话合成、视觉交互等核心交互能力的提升,为用户带来更加沉浸、智能且富有温度的交互体验的过程中,以持续推进开源工作为契机,Soul将积极与全球开发者携手,共建生态,为推动“ AI +社交”方向前沿能力建设贡献力量。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2死3失联!这座桥为何在众目睽睽之下突然垮塌?

2死3失联!这座桥为何在众目睽睽之下突然垮塌?

民言民语
2026-02-03 08:45:05
小车直接断成两截,司机雷某某(女,60岁)抢救无效死亡

小车直接断成两截,司机雷某某(女,60岁)抢救无效死亡

南方都市报
2026-02-03 16:20:06
大陆第一网红新片翻车!讽春晚审查「不好笑毙掉」惨遭全平台下架

大陆第一网红新片翻车!讽春晚审查「不好笑毙掉」惨遭全平台下架

ETtoday星光云
2026-02-03 10:18:23
小米解散SU7 Ultra专业团队,雷军高端梦“破灭”!

小米解散SU7 Ultra专业团队,雷军高端梦“破灭”!

互联网品牌官
2026-02-03 16:47:44
新规来了!从1号起,农民卖蔬菜、水果等农产品,要开具合格证明

新规来了!从1号起,农民卖蔬菜、水果等农产品,要开具合格证明

我心纵横天地间
2026-02-03 22:57:23
纽约尾盘,现货黄金跌4.54%

纽约尾盘,现货黄金跌4.54%

每日经济新闻
2026-02-03 06:10:14
16GB+1TB!新机官宣:3月1日,全球首发亮相!

16GB+1TB!新机官宣:3月1日,全球首发亮相!

科技堡垒
2026-02-02 13:35:14
外交部:强烈谴责瓜达尔港袭击事件,中方坚决反对一切形式的恐怖主义

外交部:强烈谴责瓜达尔港袭击事件,中方坚决反对一切形式的恐怖主义

每日经济新闻
2026-02-03 20:28:42
日活破亿!张一鸣又赌对了:字节迎来第五个爆款APP

日活破亿!张一鸣又赌对了:字节迎来第五个爆款APP

快科技
2026-02-04 00:32:29
韩媒:中国欠特朗普一声谢谢!要不是美国打压,中国芯不会那么强

韩媒:中国欠特朗普一声谢谢!要不是美国打压,中国芯不会那么强

互联网.乱侃秀
2026-02-03 10:27:19
小网红称给嫣然捐了5000W,被网友嘲讽是吹牛,李亚鹏却出面证实

小网红称给嫣然捐了5000W,被网友嘲讽是吹牛,李亚鹏却出面证实

新游戏大妹子
2026-02-03 13:42:47
金刻羽:比起其学术成就,人们更喜欢看一颗优质大白菜被野猪拱了

金刻羽:比起其学术成就,人们更喜欢看一颗优质大白菜被野猪拱了

廖保平
2026-02-03 09:05:59
中国成功研制出一款星链干扰器

中国成功研制出一款星链干扰器

跟着老李看世界
2026-02-03 00:02:33
警方通报夫妻网购娃娃菜食用中毒事件:2人涉嫌敲诈勒索罪已被采取刑事强制措施

警方通报夫妻网购娃娃菜食用中毒事件:2人涉嫌敲诈勒索罪已被采取刑事强制措施

界面新闻
2026-02-03 22:38:45
一斤烟丝能卷500支烟,不少网友图省钱跑网上购买违规烟丝

一斤烟丝能卷500支烟,不少网友图省钱跑网上购买违规烟丝

映射生活的身影
2026-02-03 21:27:43
再不来上海了!台湾男歌手上厕所外套被偷,发牢骚:美国很难遇到

再不来上海了!台湾男歌手上厕所外套被偷,发牢骚:美国很难遇到

削桐作琴
2026-02-03 18:17:26
孙宇晨与谷爱凌的大瓜:自称以“咖位不同”被分手前女友再爆猛料

孙宇晨与谷爱凌的大瓜:自称以“咖位不同”被分手前女友再爆猛料

穿透
2026-02-03 21:45:13
韩媒首度还原大S死亡真相,揭开致命原因!让现场明星嘉宾很惊讶

韩媒首度还原大S死亡真相,揭开致命原因!让现场明星嘉宾很惊讶

娱乐团长
2026-02-03 15:15:49
女生主动起来有多黏人?网友:这些女的太开放了

女生主动起来有多黏人?网友:这些女的太开放了

带你感受人间冷暖
2026-01-27 00:20:06
成都个别领导的风险,比刘虎的要大得多

成都个别领导的风险,比刘虎的要大得多

不主流讲话
2026-02-03 15:18:01
2026-02-04 04:32:49
智能相对论 incentive-icons
智能相对论
智能和车,边评边测;未来和家,且品且鉴
2442文章数 2413关注度
往期回顾 全部

科技要闻

1.25万亿美元!xAI员工赢麻了

头条要闻

挪威王储妃给爱泼斯坦发暧昧邮件:你让我兴奋

头条要闻

挪威王储妃给爱泼斯坦发暧昧邮件:你让我兴奋

体育要闻

“也许我的一小步,会成为中国足球的一大步”

娱乐要闻

大S逝世一周年 S家没通知大S子女惹争议

财经要闻

中央一号文件:扎实推进乡村全面振兴

汽车要闻

上汽决定不再等那个“正确答案”了

态度原创

教育
家居
数码
房产
军事航空

教育要闻

学霸到底怎么刷题的?

家居要闻

极简木艺术 典雅自在

数码要闻

机械师推出新款24寸显示器:1080P 144Hz IPS屏仅449元

房产要闻

大盘最低杀到8000+/㎡!海口59盘,最新房价曝光!

军事要闻

特朗普:庞大兵力将很快抵达伊朗

无障碍浏览 进入关怀版