网易首页 > 网易号 > 正文 申请入驻

Soul App开源播客语音合成模型,可流畅自然多轮语音对话

0
分享至

Soul App AI团队(Soul AI Lab)正式开源播客语音合成模型SoulX-Podcast

该模型是一款专为多人、多轮对话场景打造的语音生成模型,支持中、英、川、粤等多语种/方言与副语言风格,能稳定输出超60分钟、自然流畅、角色切换准确、韵律起伏丰富的多轮语音对话

除了播客场景以外,SoulX-Podcast在通用语音合成或克隆场景下也表现出色,带来更真实、更生动的语音体验。



流畅自然多轮对话、多方言、超长播客生成
零样本克隆的多轮对话能力

在零样本克隆播客生成场景中,SoulX-Podcast 展现出卓越的语音生成能力。

它不仅能高度还原参考语音的音色与风格,更能根据对话语境灵活调节韵律与节奏,让每一段对话都自然流畅、富有节奏感。

无论是多轮长时对话,还是情感层次丰富的交流,SoulX-Podcast 都能保持声音的连贯与表达的真实。

此外,SoulX-Podcast 还支持笑声、清嗓等多种副语言元素的可控生成,让合成语音更具临场感与表现力。

多语种和跨方言的克隆能力

除中英文外,SoulX-Podcast 同样支持四川话、河南话、粤语等多种主流方言。

更值得关注的是,SoulX-Podcast 实现了跨方言音色克隆——即便仅提供普通话的参考语音,模型也能灵活生成带有四川话、河南话、粤语等方言特征的自然语音。

超长播客生成

SoulX-Podcast可以支持超长播客的生成,并维持稳定的音色与风格。

聚焦语音,AI重构情感纽带

一直以来,声音都是传递信息和情感的重要媒介,也最能在沟通中赋予“情绪温度”和“陪伴感”。

在Soul,用户积极通过语音实时互动,表达自我、分享交流,收获新关系,语音成为用户构建链接的“情感纽带”,“语音社交”也成为平台颇具代表性的标签之一。

在推进AI+社交的过程中,智能对话、语音生成、情感化表达等语音能力是Soul重点布局的方向。

此前,平台端到端全双工语音通话大模型全面升级,并在站内开启内测。新模型赋予AI自主决策对话节奏的能力,AI可主动打破沉默、适时打断用户、边听边说、时间语义感知、并行发言讨论等,实现更接近生活日常的交互对话和“类真人”的情感陪伴体验

同时,团队推出了自研的语音生成大模型、语音识别大模型、语音对话大模型等语音大模型能力,快速应用于“虚拟伴侣”、 群聊派对(多人语音互动场景)等多元场景中。

例如,9月,Soul的两位虚拟人——孟知时与屿你——在群聊派对中发起了一场持续约40分钟的对话,在没有任何额外投流、仅依靠虚拟人自身自然流量的情况下,这场活动迅速引爆社区,房间互动热度刷新平台纪录,受到了广大用户的热烈欢迎。

这一成功案例让Soul的AI技术与虚拟IP运营团队深刻意识到:“虚拟IP + AI语音对话” 正在成为虚拟内容生态的重要增长点。

它不仅展现了虚拟人的人格魅力与表达张力,更揭示了AI在内容创作与社交互动中的全新潜能。

然而,当时业界能够稳定支持多轮自然对话的开源播客生成模型相对较少,并且当场景从单人独白扩展到多人对话与长篇播客时,也普遍面临一些问题。

为此,Soul 团队决定开源SoulX-Podcast, 希望能携手AIGC社区,共同探索AI语音在内容创作、社交表达与虚拟生态中的更多可能。

开源新阶段,探索AI+社交更多可能

相比传统的单说话人语音合成系统,播客语音合成系统不仅需要保持文本与语音的精准一致,还要具备更强的上下文理解能力,以实现多轮对话间语音衔接的自然流畅与节奏的动态变化。

此外,面对多角色交互和超长对话场景,系统还需在音色一致性、风格延续性以及角色切换的准确性上实现更高水平的控制与建模。

近来,已有部分开源研究开始探索播客或对话场景下的多说话人、多轮次语音合成能力。

然而,这些工作仍主要聚焦于普通话或英语,对中文受众广泛的方言(如粤语、四川话、河南话等)支持不足。

此外,在多轮语音对话场景中,恰当的副语言表达——如叹息、呼吸、笑声——对提升对话的生动性与自然度至关重要,但现有模型对此普遍关注不足。

而SoulX-Podcast正是希望解决这些痛点:

不仅支持多轮、多角色的长对话生成,同时兼顾方言覆盖和副语言表达能力,使播客语音更贴近真实交流场景、富有表现力与生动感,从而提升听众的沉浸体验和内容传播力。



整体SoulX-Podcast模型基础结构上采用了常用的LLM + Flow Matching的语音生成范式,前者建模语义token,后者进一步建模声学特征。

在基于LLM的语义token建模方面,SoulX-Podcast以 Qwen3-1.7B作为基座模型,并基于原始文本模型参数进行初始化,以充分继承其语言理解能力。

尽管SoulX-Podcast是专为多人、多轮对话场景设计的系统,但在传统的单人语音合成与零样本语音克隆任务中同样表现优异

在播客生成任务中,相较于近期相关工作,SoulX-Podcast 在语音可懂度与音色相似度方面均取得了最佳结果。





此次SoulX-Podcast的开源,是Soul在开源社区领域的一次全新尝试,也是一个新的起点。

Soul团队表示,未来将持续聚焦语音对话合成、全双工语音通话、拟人化表达、视觉交互等核心交互能力的提升,并加速技术在多样化应用场景与整体生态中的融合落地,为用户带来更加沉浸、智能且富有温度的交互体验,持续提升个体的幸福感与归属感。

同时,团队将进一步深化开源生态建设,与全球开发者携手,共同拓展AI语音等前沿能力的边界,探索 “AI +社交” 的更多可能。

Demo Page:

https://soul-ailab.github.io/soulx-podcast

Technical Report:

https://arxiv.org/pdf/2510.23541

Source Code:

https://github.com/Soul-AILab/SoulX-Podcast

HuggingFace:

https://huggingface.co/collections/Soul-AILab/soulx-podcast

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
泪目!34岁国乒美女奥运冠军全运最后一舞:首秀3-0又美又能打

泪目!34岁国乒美女奥运冠军全运最后一舞:首秀3-0又美又能打

李喜林篮球绝杀
2025-11-10 14:41:39
午评:创业板指半日跌0.74% 光伏板块逆势上扬

午评:创业板指半日跌0.74% 光伏板块逆势上扬

财联社
2025-11-11 11:35:06
惊艳!你绝对想不到的日常穿搭搭配技巧!

惊艳!你绝对想不到的日常穿搭搭配技巧!

独角showing
2025-11-11 13:41:41
中方说到做到,制裁暂停一年,特朗普没想到,李在明成了最大赢家

中方说到做到,制裁暂停一年,特朗普没想到,李在明成了最大赢家

军机Talk
2025-11-11 14:33:38
王自如建议抓紧买手机:明年手机或涨价

王自如建议抓紧买手机:明年手机或涨价

鞭牛士
2025-11-10 13:52:05
3岁幼童误拿泡泡糖母亲赔偿60元 超市称孩子还偷了数千元商品?好想来回应

3岁幼童误拿泡泡糖母亲赔偿60元 超市称孩子还偷了数千元商品?好想来回应

闪电新闻
2025-11-11 11:06:38
屁股大女生的时尚逆袭!高腰紧身牛仔裤搭蕾丝背心,臀型饱满有致

屁股大女生的时尚逆袭!高腰紧身牛仔裤搭蕾丝背心,臀型饱满有致

小乔古装汉服
2025-11-11 11:37:32
乌克兰证实“半人马座B1”坦克歼击车参战 意大利暗戳戳提供军援

乌克兰证实“半人马座B1”坦克歼击车参战 意大利暗戳戳提供军援

hawk26讲武堂
2025-11-11 14:38:33
蒋介石日记几乎骂遍了所有人,包括宋美龄,唯独对周恩来保持风度

蒋介石日记几乎骂遍了所有人,包括宋美龄,唯独对周恩来保持风度

海佑讲史
2025-11-11 12:30:05
英国已做好准备,随时参战,它的动机是什么?

英国已做好准备,随时参战,它的动机是什么?

高博新视野
2025-11-09 17:03:08
侄女跟我生活15年,哥哥一家来了,侄女塞我一张纸条:什么都别答应

侄女跟我生活15年,哥哥一家来了,侄女塞我一张纸条:什么都别答应

荔枝人物记
2025-10-27 21:55:07
乱了!日本领土危机浮现!不光是琉球,原来连北海道也不是日本的

乱了!日本领土危机浮现!不光是琉球,原来连北海道也不是日本的

凉羽亭
2025-11-11 10:26:18
重庆通报:初步判断被污染,正全面排查

重庆通报:初步判断被污染,正全面排查

澎湃新闻
2025-11-11 01:01:05
2-1!3-1!东亚两强爆发,日本力压葡萄牙夺第一,韩国不败出线

2-1!3-1!东亚两强爆发,日本力压葡萄牙夺第一,韩国不败出线

绿茵舞着
2025-11-10 23:38:34
陕西多地中小学寒假时间公布

陕西多地中小学寒假时间公布

鲁中晨报
2025-11-11 13:47:02
武大“永远的校长”刘道玉去世,他被免武大校长的真实原因解禁

武大“永远的校长”刘道玉去世,他被免武大校长的真实原因解禁

神州扫描
2025-11-10 09:58:55
黑色幽默!电诈园区办公室中文标语,简直是天大的讽刺

黑色幽默!电诈园区办公室中文标语,简直是天大的讽刺

麦大人
2025-11-06 08:32:30
拓媒:斯普利特没有比卢普斯了解杨瀚森,因此连续让他不上场

拓媒:斯普利特没有比卢普斯了解杨瀚森,因此连续让他不上场

懂球帝
2025-11-11 10:57:19
老人出现三种状况,暗示生命开始步入倒计时,早知道早做打算

老人出现三种状况,暗示生命开始步入倒计时,早知道早做打算

普陀动物世界
2025-11-10 08:54:31
湖人生涯首扣,东契奇对黄蜂上演双手暴扣,为25年的第2次扣篮

湖人生涯首扣,东契奇对黄蜂上演双手暴扣,为25年的第2次扣篮

懂球帝
2025-11-11 10:57:16
2025-11-11 15:23:00
量子位 incentive-icons
量子位
追踪人工智能动态
11655文章数 176329关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

牛弹琴:高市早苗创了纪录 上台20天中方两次强烈抗议

头条要闻

牛弹琴:高市早苗创了纪录 上台20天中方两次强烈抗议

体育要闻

重返诺坎普!梅西:希望有一天能回来

娱乐要闻

何超莲窦骁真的没离婚?

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

游戏
数码
旅游
本地
公开课

预约破千万!网易开放世界大作周六上线:三端互通

数码要闻

已经结束使命的苹果iPod迎来第24个诞辰

旅游要闻

伊春冬季冰雪旅游“百日行动”来了!12月1日起梯次启幕

本地新闻

这届干饭人,已经把博物馆吃成了食堂

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版