网易首页 > 网易号 > 正文 申请入驻

Soul App开源播客语音合成模型,可流畅自然多轮语音对话

0
分享至

Soul App AI团队(Soul AI Lab)正式开源播客语音合成模型SoulX-Podcast

该模型是一款专为多人、多轮对话场景打造的语音生成模型,支持中、英、川、粤等多语种/方言与副语言风格,能稳定输出超60分钟、自然流畅、角色切换准确、韵律起伏丰富的多轮语音对话

除了播客场景以外,SoulX-Podcast在通用语音合成或克隆场景下也表现出色,带来更真实、更生动的语音体验。



流畅自然多轮对话、多方言、超长播客生成
零样本克隆的多轮对话能力

在零样本克隆播客生成场景中,SoulX-Podcast 展现出卓越的语音生成能力。

它不仅能高度还原参考语音的音色与风格,更能根据对话语境灵活调节韵律与节奏,让每一段对话都自然流畅、富有节奏感。

无论是多轮长时对话,还是情感层次丰富的交流,SoulX-Podcast 都能保持声音的连贯与表达的真实。

此外,SoulX-Podcast 还支持笑声、清嗓等多种副语言元素的可控生成,让合成语音更具临场感与表现力。

多语种和跨方言的克隆能力

除中英文外,SoulX-Podcast 同样支持四川话、河南话、粤语等多种主流方言。

更值得关注的是,SoulX-Podcast 实现了跨方言音色克隆——即便仅提供普通话的参考语音,模型也能灵活生成带有四川话、河南话、粤语等方言特征的自然语音。

超长播客生成

SoulX-Podcast可以支持超长播客的生成,并维持稳定的音色与风格。

聚焦语音,AI重构情感纽带

一直以来,声音都是传递信息和情感的重要媒介,也最能在沟通中赋予“情绪温度”和“陪伴感”。

在Soul,用户积极通过语音实时互动,表达自我、分享交流,收获新关系,语音成为用户构建链接的“情感纽带”,“语音社交”也成为平台颇具代表性的标签之一。

在推进AI+社交的过程中,智能对话、语音生成、情感化表达等语音能力是Soul重点布局的方向。

此前,平台端到端全双工语音通话大模型全面升级,并在站内开启内测。新模型赋予AI自主决策对话节奏的能力,AI可主动打破沉默、适时打断用户、边听边说、时间语义感知、并行发言讨论等,实现更接近生活日常的交互对话和“类真人”的情感陪伴体验

同时,团队推出了自研的语音生成大模型、语音识别大模型、语音对话大模型等语音大模型能力,快速应用于“虚拟伴侣”、 群聊派对(多人语音互动场景)等多元场景中。

例如,9月,Soul的两位虚拟人——孟知时与屿你——在群聊派对中发起了一场持续约40分钟的对话,在没有任何额外投流、仅依靠虚拟人自身自然流量的情况下,这场活动迅速引爆社区,房间互动热度刷新平台纪录,受到了广大用户的热烈欢迎。

这一成功案例让Soul的AI技术与虚拟IP运营团队深刻意识到:“虚拟IP + AI语音对话” 正在成为虚拟内容生态的重要增长点。

它不仅展现了虚拟人的人格魅力与表达张力,更揭示了AI在内容创作与社交互动中的全新潜能。

然而,当时业界能够稳定支持多轮自然对话的开源播客生成模型相对较少,并且当场景从单人独白扩展到多人对话与长篇播客时,也普遍面临一些问题。

为此,Soul 团队决定开源SoulX-Podcast, 希望能携手AIGC社区,共同探索AI语音在内容创作、社交表达与虚拟生态中的更多可能。

开源新阶段,探索AI+社交更多可能

相比传统的单说话人语音合成系统,播客语音合成系统不仅需要保持文本与语音的精准一致,还要具备更强的上下文理解能力,以实现多轮对话间语音衔接的自然流畅与节奏的动态变化。

此外,面对多角色交互和超长对话场景,系统还需在音色一致性、风格延续性以及角色切换的准确性上实现更高水平的控制与建模。

近来,已有部分开源研究开始探索播客或对话场景下的多说话人、多轮次语音合成能力。

然而,这些工作仍主要聚焦于普通话或英语,对中文受众广泛的方言(如粤语、四川话、河南话等)支持不足。

此外,在多轮语音对话场景中,恰当的副语言表达——如叹息、呼吸、笑声——对提升对话的生动性与自然度至关重要,但现有模型对此普遍关注不足。

而SoulX-Podcast正是希望解决这些痛点:

不仅支持多轮、多角色的长对话生成,同时兼顾方言覆盖和副语言表达能力,使播客语音更贴近真实交流场景、富有表现力与生动感,从而提升听众的沉浸体验和内容传播力。



整体SoulX-Podcast模型基础结构上采用了常用的LLM + Flow Matching的语音生成范式,前者建模语义token,后者进一步建模声学特征。

在基于LLM的语义token建模方面,SoulX-Podcast以 Qwen3-1.7B作为基座模型,并基于原始文本模型参数进行初始化,以充分继承其语言理解能力。

尽管SoulX-Podcast是专为多人、多轮对话场景设计的系统,但在传统的单人语音合成与零样本语音克隆任务中同样表现优异

在播客生成任务中,相较于近期相关工作,SoulX-Podcast 在语音可懂度与音色相似度方面均取得了最佳结果。





此次SoulX-Podcast的开源,是Soul在开源社区领域的一次全新尝试,也是一个新的起点。

Soul团队表示,未来将持续聚焦语音对话合成、全双工语音通话、拟人化表达、视觉交互等核心交互能力的提升,并加速技术在多样化应用场景与整体生态中的融合落地,为用户带来更加沉浸、智能且富有温度的交互体验,持续提升个体的幸福感与归属感。

同时,团队将进一步深化开源生态建设,与全球开发者携手,共同拓展AI语音等前沿能力的边界,探索 “AI +社交” 的更多可能。

Demo Page:

https://soul-ailab.github.io/soulx-podcast

Technical Report:

https://arxiv.org/pdf/2510.23541

Source Code:

https://github.com/Soul-AILab/SoulX-Podcast

HuggingFace:

https://huggingface.co/collections/Soul-AILab/soulx-podcast

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
策略:明天11月12日的预判出来了,全面减仓之前,我要说两句!

策略:明天11月12日的预判出来了,全面减仓之前,我要说两句!

一担金
2025-11-11 15:12:49
收到中方警告后,高市早苗知道事情闹大了,火速改口:我就是假设

收到中方警告后,高市早苗知道事情闹大了,火速改口:我就是假设

博览历史
2025-11-11 16:16:03
河北廊坊通报“新人婚车遭拦截被索要50条烟”:系误传,实为索要9条香烟,对胡某某、殷某某等6人给予行政处罚、批评教育处理

河北廊坊通报“新人婚车遭拦截被索要50条烟”:系误传,实为索要9条香烟,对胡某某、殷某某等6人给予行政处罚、批评教育处理

扬子晚报
2025-11-11 10:19:33
从三航母到求职难:经济转型期的宏大叙事与个体困境

从三航母到求职难:经济转型期的宏大叙事与个体困境

流苏晚晴
2025-11-11 20:16:54
欧盟对华为下黑手,反手就被自己人打脸!中国四字回应绝了

欧盟对华为下黑手,反手就被自己人打脸!中国四字回应绝了

科技处长
2025-11-11 22:45:33
余嘉豪14分浙江挺进决赛,四川2000万打水漂是篮球的胜利

余嘉豪14分浙江挺进决赛,四川2000万打水漂是篮球的胜利

李广专业体育评论
2025-11-11 18:00:23
开盘暴涨400%,市值195.7亿!上海80后夫妻档,手握两个全球第一

开盘暴涨400%,市值195.7亿!上海80后夫妻档,手握两个全球第一

历史伟人录
2025-11-11 14:07:15
高市早苗为“台湾有事”发言降温:承认言辞失当,今后将谨慎

高市早苗为“台湾有事”发言降温:承认言辞失当,今后将谨慎

面包夹知识
2025-11-11 14:10:23
西班牙国王夫妇访华,抵达成都国际机场,莱蒂齐亚王后美翻了

西班牙国王夫妇访华,抵达成都国际机场,莱蒂齐亚王后美翻了

红袖说事
2025-11-11 05:04:26
詹姆斯复出倒计时!确定今日下放发展联盟:与南湾湖人一起训练

詹姆斯复出倒计时!确定今日下放发展联盟:与南湾湖人一起训练

罗说NBA
2025-11-11 07:13:06
中国这次真的怒了:三个月内不偿还358亿违约金,就没收18艘军舰

中国这次真的怒了:三个月内不偿还358亿违约金,就没收18艘军舰

花花娱界
2025-11-10 22:04:28
宗庆后再被曝猛料,魔爪伸向多名女员工,还有浙大高材生为他生子

宗庆后再被曝猛料,魔爪伸向多名女员工,还有浙大高材生为他生子

八斗小先生
2025-07-17 15:12:37
《基辅邮报》称,美国试图从联合国决议中删除乌领土完整的条款

《基辅邮报》称,美国试图从联合国决议中删除乌领土完整的条款

山河路口
2025-11-11 23:20:46
人活多久,看睡觉就知道?寿命短的人,睡觉一般有这3个特征

人活多久,看睡觉就知道?寿命短的人,睡觉一般有这3个特征

千秋文化
2025-11-11 09:12:13
他在日本彻底火出圈了!

他在日本彻底火出圈了!

这里是东京
2025-11-11 18:28:25
“笑到胃疼”的拼多多买家秀,店主直呼钱不要了,你删了评论就好

“笑到胃疼”的拼多多买家秀,店主直呼钱不要了,你删了评论就好

笑熬浆糊111
2025-11-05 00:05:19
人心不足蛇吞象,赵薇突传消息,因胃癌去世5个月前已真相大白

人心不足蛇吞象,赵薇突传消息,因胃癌去世5个月前已真相大白

广西阿妹香香
2025-11-11 12:09:41
超市“退役”墨水屏价签走红闲鱼:两元一个

超市“退役”墨水屏价签走红闲鱼:两元一个

大象新闻
2025-11-11 15:10:03
“面部塑料感重”发酵3天后,杨紫更新新动态,宋丹丹的话遭反转

“面部塑料感重”发酵3天后,杨紫更新新动态,宋丹丹的话遭反转

艳儿说电影
2025-11-09 10:57:55
2025.11.11围棋赛事:三星杯16强后4场中国大捷,廖元赫力克申真谞

2025.11.11围棋赛事:三星杯16强后4场中国大捷,廖元赫力克申真谞

每日棋事
2025-11-11 23:04:57
2025-11-12 00:03:00
量子位 incentive-icons
量子位
追踪人工智能动态
11657文章数 176329关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

上海阿姨存了近30年的钱提不出傻眼 银行:找不到底根

头条要闻

上海阿姨存了近30年的钱提不出傻眼 银行:找不到底根

体育要闻

一个14岁的小男孩,决定了谁能晋级世界杯

娱乐要闻

古二曝秦雯多次炫耀袭警经历

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

艺术
教育
本地
房产
数码

艺术要闻

田英章日常书信曝光,字迹开阔惊艳人心!

教育要闻

早晚自习两开花,成绩依旧不回家

本地新闻

云游安徽 | 凌滩玉魄淬千年,诗意钢城马鞍山

房产要闻

海口湾,1300亩巨无霸地块登场!

数码要闻

小米首款NAS下月见

无障碍浏览 进入关怀版