网易首页 > 网易科技 > 网易科技 > 正文

突破TTS自然度瓶颈:双工对话数据集让合成语音更像真人说话

0
分享至

(原标题:突破TTS自然度瓶颈:双工对话数据集让合成语音更像真人说话)

在人工智能快速发展的今天,语音合成技术(TTS)已经能够生成清晰可懂的语音,但如何让AI说话更加自然、更像真人对话,仍是当前研究面临的重要挑战。传统语音合成系统大多依赖交替说话式的“半双工”语料,难以还原真实对话中频繁发生的语音重叠、实时反馈、插话和情感呼应等行为。

为此,Magic Data研究团队开展了针对全双工对话语音数据的研究,相关论文《Open-Source Full-Duplex Conversational Datasets for Natural and Interactive Speech Synthesis》已在arXiv平台发布。

image.png

研究背景和动机

研究表明,人类自然对话中超过40%的语句存在重叠现象,包括打断、实时反馈(如“嗯嗯”、“对的”)和非语言发声(如笑声)等。这些动态交互特征正是合成语音是否“像人”的关键。然而,现有大多数语音语料库(如Switchboard、DailyTalk)仍以轮流说话为主,缺乏显性的重叠语音标注与对齐机制,限制了全双工语音交互模型的训练效果。

为解决这一问题,Magic Data研究团队构建了中英双语全双工对话数据集,旨在为对话式TTS系统提供更贴合真实交互情境的高质量训练数据。

数据构建和方法

核心创新:研究团队构建了两个开源的全双工对话数据集(中文10小时,英文5小时),通过双轨录音技术捕获真实的对话动态,包括重叠、回应声、笑声等自然对话元素。

数据采集设置

我们邀请了以中文和英语为母语的说话人参与录制,所有对话均在独立房间内进行,每位说话人使用独立设备录制,生成双声道分离的高质量语音轨。说话人两两一组,优先选择彼此熟悉的组合(如朋友、家人),便于激发更自然的对话行为。

话题内容不设限制,说话人可自由选择日常感兴趣的主题进行讨论,从而覆盖多样化的语境和语音现象。

转写和标注

所有合格录音均由经过培训的标注员进行人工转写与标注,内容包括:

· 说话人身份、性别信息;

· 精确的时间戳(起始与结束点);

· 重叠语音区间标注;

· 副语言现象(如笑声、语气词)和对话行为标签。

我们特别强调基于语义完整性的语音活动检测(VAD)分段,确保每段语音不仅 acoustically 完整,更具备语义上的独立性,从而适用于TTS训练与语义理解任务。

数据统计与结构

数据集共包含35段对话,其中中文27段(10小时)、英语8段(5小时),由14名不同说话人完成。所有音频均以16kHz、16bit PCM格式发布,配套按时间排序的双人转写文本,每行包含时间信息、说话人ID与文本内容。

image.png

表1数据集统计

文件命名遵循结构化规则:A<SessionID>_S<TopicID>_0_G<SpeakerID>,便于识别与管理。

实验验证与结果分析

为验证数据集有效性,我们使用 CosyVoice-300M 模型作为基线,分别在使用该数据微调前后生成语音,并从客观声学指标与主观听感两方面进行综合评估。

客观评价

实验结果显示,微调后模型在所有指标上均有提升,尤其F0距离显著下降(中文7.08%,英文3.67%),证明合成语音在韵律和节奏方面更接近自然语音。

image.png

表2微调后客观指标的改进(中文与英文子集)

主观评价

我们招募了以中英文为母语的听者进行A/B偏好测试,结果显示:

· 中文合成语音中,45%听者认为微调后的模型更自然;

· 英文合成语音中,46.4%听者认为微调后的模型更自然。

image.png

图1 A/B 偏好分布统计

MOS(平均意见分)评分在自然度与可懂度两个维度均出现一致提升。

image.png

表3中文与英文MOS评分比较

结果表明,使用全双工数据微调能显著提升语音的交互真实感与整体自然度。

数据开放与使用许可

本数据集已通过ScienceDB平台公开,采用CC BY 4.0许可协议,允许学术研究使用,需注明来源。

此外,数据集也在MagicHub开源社区发布,欢迎研究人员下载使用。

除已开源部分外,Magic Data 还可提供更大规模、多语种、可商用双工对话数据,满足企业级应用的需求。

总结与展望

本研究通过构建高质量中英全双工对话数据集,并验证其在提升TTS自然度与对话交互感方面的有效性,为推进对话语音合成的发展提供了重要数据基础与实验依据。未来,我们期待看到更多研究者开发出更自然、更智能的对话系统。

如果您希望进一步了解数据集细节或合作意向,欢迎联系Magic Data官方团队。

相关推荐
热点推荐
马斯克愤怒:7万篇文章纪念惯犯,被惯犯杀死0新闻,民主党装死

马斯克愤怒:7万篇文章纪念惯犯,被惯犯杀死0新闻,民主党装死

移光幻影
2025-09-10 12:48:11
九地党委主要领导密集调整,多名市长升任市委书记

九地党委主要领导密集调整,多名市长升任市委书记

鲁中晨报
2025-09-10 15:13:09
回国后我才敢说的实话:美国人的生活,比多数发达国家更奢侈!

回国后我才敢说的实话:美国人的生活,比多数发达国家更奢侈!

天下霸奇
2025-09-10 10:04:03
广州爸爸举报班主任,怒撕家委会,他出名了,可孩子却成了牺牲品

广州爸爸举报班主任,怒撕家委会,他出名了,可孩子却成了牺牲品

君好伴读
2025-09-11 11:02:03
阿根廷资本市场暴跌,休克疗法痛失民心,米莱新政沦为世界级笑话

阿根廷资本市场暴跌,休克疗法痛失民心,米莱新政沦为世界级笑话

碳基生物关怀组织
2025-09-10 17:01:44
一天两包烟顿顿八两酒,坚决不听医生劝阻的李琦,如今竟然大变样

一天两包烟顿顿八两酒,坚决不听医生劝阻的李琦,如今竟然大变样

九分看世界
2025-09-07 07:36:12
三星官方账号嘲讽iPhone 17:4800万三摄不如2亿像素

三星官方账号嘲讽iPhone 17:4800万三摄不如2亿像素

手机中国
2025-09-10 16:31:09
悲痛!他因病去世了!

悲痛!他因病去世了!

奋斗在韩国
2025-09-10 11:20:35
卡塔尔首相誓言报复以色列袭击 称不放弃调解

卡塔尔首相誓言报复以色列袭击 称不放弃调解

环球时报国际
2025-09-10 18:39:37
国家卫健委:国务院成立深化公立医院改革协调机制

国家卫健委:国务院成立深化公立医院改革协调机制

红星新闻
2025-09-11 11:43:12
萧华首次回应快艇小卡一事:正在调查 要讲证据

萧华首次回应快艇小卡一事:正在调查 要讲证据

体坛周报
2025-09-11 11:11:33
全家移民、被央视开除、抛妻弃女、水均益身上的标签哪个才是真的

全家移民、被央视开除、抛妻弃女、水均益身上的标签哪个才是真的

一娱三分地
2025-09-10 20:52:48
9月10日消息,中方郑重通告全球:决不准许日本军国主义卷土重来

9月10日消息,中方郑重通告全球:决不准许日本军国主义卷土重来

一个有灵魂的作者
2025-09-10 21:02:10
几百米外,一枪命中颈部大动脉,一般人真心办不到

几百米外,一枪命中颈部大动脉,一般人真心办不到

三叔的装备空间
2025-09-11 10:59:03
高调离婚后又要复合?内娱第一笑话

高调离婚后又要复合?内娱第一笑话

创意社V
2025-09-04 10:46:45
一位上海炒股奇才直言:散户坚决做到这“二不碰”,此文很短很深

一位上海炒股奇才直言:散户坚决做到这“二不碰”,此文很短很深

股经纵横谈
2025-09-10 21:22:36
满屏充斥着库列巴逃跑的假消息,人家辟谣了,这里却少见更正

满屏充斥着库列巴逃跑的假消息,人家辟谣了,这里却少见更正

李未熟擒话2
2025-09-10 18:59:18
教师节变了味,多名教师以晒收礼物为乐,人民教师怎么变成这样?

教师节变了味,多名教师以晒收礼物为乐,人民教师怎么变成这样?

蜜桔娱乐
2025-09-10 21:50:50
不加关税了,特朗普签行政令,离岸人民币汇率变弱,中方开始行动

不加关税了,特朗普签行政令,离岸人民币汇率变弱,中方开始行动

影孖看世界
2025-09-10 13:19:47
王毅同美国国务卿鲁比奥通电话

王毅同美国国务卿鲁比奥通电话

新华社
2025-09-11 00:22:01
2025-09-11 14:24:49

科技要闻

马斯克深夜被“夺位”,世界首富一度换人

头条要闻

女高管遭性侵维权:醒来自己一丝不挂 老板穿内裤在旁

头条要闻

女高管遭性侵维权:醒来自己一丝不挂 老板穿内裤在旁

体育要闻

萧华首次回应快艇小卡一事:正在调查

娱乐要闻

刘亦菲为何视后梦碎?

财经要闻

创指大涨4.31%站上3000点 半导体爆发

汽车要闻

花小钱买大空间/底盘还挺紧 小马试驾极狐T1

态度原创

本地
教育
房产
公开课
军事航空

本地新闻

盼十一假期的打工人,都在熬夜钻研这份厕评红黑榜

教育要闻

那些年的地理老师你还记得吗?

房产要闻

炸裂!70+高校落地海南,自贸港教育红利要来了!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

以色列总理要求卡塔尔驱逐哈马斯领导人

无障碍浏览 进入关怀版
×