网易首页 > 网易号 > 正文 申请入驻

清华、智谱团队:「6000亿合成交错语音文本」预训练,问答性能提升近3倍

0
分享至

与基于文本的大语言模型(LLM)相比,语音语言模型(SpeechLM)接受语音输入并生成语音输出,能够实现更自然的人机交互。然而,传统的 SpeechLM 因缺乏无监督语音数据和并行语音-文本数据,很难像 LLM 一样进行大规模扩展。

为解决这一问题,来自清华大学和智谱的研究团队提出了一种新方法,利用从文本语料库中提取的大规模合成交错数据来扩展语音-文本预训练,从而消除了对并行语音-文本数据集的需求。这一方法从现有文本库中抽取文本片段,并使用 text-to-token 模型合成相应的语音片段,从而高效地构建语音-文本交错数据,而无需生成实际语音。

此外,通过在编码器中加入向量量化的瓶颈层,他们还采用了从自动语音识别(ASR)模型中提取的监督语音 tokenizer。即使在较低的采样率(如 12.5Hz)下,这种有监督的训练方法也能生成语义保存较好的离散语音 token,同时保持语音重构质量。

论文链接:https://arxiv.org/abs/2411.17607

研究团队表示,从预训练的语言模型开始,并将预训练扩展到 1 万亿个 token(其中包括 6000 亿合成交错语音文本数据),他们在语音语言建模和口语问题解答方面取得了 SOTA,将语音问答任务方面的性能从之前的 13%(Moshi)提高到 31%。

图|随着合成交错数据量的增加,Spoken QA 的性能不断提高,大大超过了之前的 SOTA 模型 Moshi(左图)。 合成交错语音文本数据的 pipeline(右图)。

他们进一步证明,通过使用语音对话数据对预训练的模型进行微调,他们开发出的一种端到端语音聊天机器人,在对话能力和语音质量方面都达到了与现有基线相当的性能,展现了在纯语音领域中应用的巨大潜力。

研究方法

研究团队提出了一种通过从文本语料库合成高质量交错语音-文本数据来扩展语音-文本预训练的新方法,使得大规模预训练无需依赖大量的语音数据集成为可能。完整方法框框架结合了语音 token 化、语音-文本交替数据生成以及两阶段训练。

图|研究方法概述。

在语音 token 化的设计上,他们采用了一种基于自动语音识别(ASR)的监督语音 tokenizer,通过在编码器中加入向量量化的瓶颈层和平均池化层来有效生成离散语音 token。

同时,为提高实时语音处理能力,tokenizer 还优化为支持流式推理从而降低在线应用中的延迟。

图|语音重构结果。 使用了词错误率(WER)评估语义保留情况,并使用 VisQOL 和 MOSNet 评估不同语音tokenizer 在不同采样率下的重建质量。

语音-文本交错数据是 SpeechLM 预训练的关键。他们先是基于现有的文本到语音(TTS)数据集训练了一个 text-to-token 模型,能直接将文本片段转换为对应的语音 token,较传统多步生成方法效率更高且潜在错误的累积更少。

接着,他们使用训练好的 text-to-token 模型从大规模文本语料库中采样文本片段,并将其转换为语音 token。这些语音 token 与原始文本片段交错组合,从而生成高质量语音-文本交错数据。最终,他们基于 FineWeb 语料库为模型预训练生成了 6000 亿 token 的语音-文本交错数据。

图|文本到 token 模型的 WER。

之后,他们开展了一个两阶段训练,在第一阶段,使用合成语音-文本交错数据对模型进行预训练,在第二阶段,使用语音对话数据集微调预训练模型。

在语音-文本预训练阶段,他们通过使用不同用途的 4 类数据:语音-文本交错数据、无监督文本数据、无监督语音数据和有监督语音-文本数据进行预训练,使模型学习语音和文本之间的对齐关系。

到了监督微调阶段,他们利用语音对话数据进行微调,使模型能够支持端到端语音输入与输出。

实验结果

研究团队通过一系列实验验证了提出方法的有效性,包括语音语言建模、语音问答、语音聊天机器人等任务,展现了在多个语音应用场景中的突破性进展。

他们在语音语言建模任务中首次测试了大规模合成语音-文本交错数据的效果。结果表明,由他们的方法预训练的模型在所用任务上均优于现有方法。模型不仅能更精准地预测语音序列,还表现出更强的泛化能力,能够适应多样化的语音输入模式。

图|模型预训练结果。

在语音问答任务中,他们评估了模型处理自然语音问答的能力,特别是其在跨模态输入输出场景中的表现。相比之前 SOTA 模型 Moshi 的 13% 准确率,新模型将问答任务的准确率大幅提升至 31%,实现了近 3 倍的性能增长。

他们进一步微调预训练模型,开发出一个完全基于语音的端到端语音聊天机器人。评估结果显示,具有文本引导的 9B 模型在一般问答和基于知识的任务中优于所有基线模型,在语音质量评估方面也比其他模型取得了更好的结果。

值得注意的是,即使没有文本引导,9B 模型仍然与文本引导的基线模型表现相当,突出了该方法在文本和语音模态对齐方面的有效性。

图|端到端语音聊天机器人的评估结果。

此外,研究团队进一步开展了消融实验探究数据规模与组成、tokenizer 采样率和跨模态数据生成方法对模型性能的影响,为优化语音-文本预训练提供了实证依据。

首先,数据规模与组成部分的实验结果显示,移除交错数据时模型性能显著下降,表明这种数据在对齐语音和文本模态中发挥了核心作用。进一步增加交错数据的规模(从 1000 亿扩展至 6000 亿 token)后,语音问答和语音语言建模的表现均有明显提升,特别是在语音到文本(S→T)和语音到语音(S→S)模式下,任务性能显著优化。

此外,尽管未标注语音数据的移除对小模型影响不大,但在大规模模型(9B 参数)中,保留所有数据类型能够大幅提升整体性能。

图|关于交错数据尺度和预训练数据组成的消融研究。

之后,他们评估了 tokenizer 的采样率对模型表现的影响。研究发现,较低采样率(如 12.5Hz)在平衡语义保留与计算效率方面表现最佳,这为模型在实际应用中的优化提供了有力支持。

最后,跨度损坏率(即交错样本中文本和语音 token 的比例)对模型性能有显著影响。当损坏比率接近 0 或 1 时,交错样本主要由文本或语音 token 主导,导致性能下降。实验通过调整不同的损坏比率训练了多个 1.5B 模型,得出 0.2 到 0.4 之间的跨度损坏率效果最佳,进而选取了 0.3 作为最佳的跨度损坏率用于主要模型的训练。

图|采样率与平均准确率(a);跨度损坏率与平均准确率(b);监督微调后的交错数据 token 与平均性能对比(c)。

研究团队表示,他们将继续探索更高效的训练方法,进一步扩展模型规模与多语言能力,促进语音 AI 实现更高效的应用。

作者:阮文韵

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
比特币期权压力将解,研究机构预测上行

比特币期权压力将解,研究机构预测上行

财闻
2026-02-22 20:47:54
2026年春节档退回十年前

2026年春节档退回十年前

凤眼论
2026-02-22 22:38:10
《全篇》《春雨信迟意难平》姜时沁蔺钧琛

《全篇》《春雨信迟意难平》姜时沁蔺钧琛

和自己并肩作战
2026-02-22 11:37:02
定居美国13年回国捞金遭驱逐,52岁活成笑话

定居美国13年回国捞金遭驱逐,52岁活成笑话

绚丽的画卷
2026-02-22 21:36:26
最让大龄剩女崩溃的是什么?网友:为啥我一个单身狗看的津津有味

最让大龄剩女崩溃的是什么?网友:为啥我一个单身狗看的津津有味

带你感受人间冷暖
2026-02-22 16:13:39
没人发拜年微信了,这是一个危险的信号

没人发拜年微信了,这是一个危险的信号

茉莉聊聊天
2026-02-18 10:48:40
被婆家宠着是啥体验?网友:终于看到正能量的博主了

被婆家宠着是啥体验?网友:终于看到正能量的博主了

解读热点事件
2026-02-01 00:05:06
所有命好的孩子都有一个共性:主体性极强

所有命好的孩子都有一个共性:主体性极强

布衣粗食68
2026-02-04 16:04:20
第一批返程的人已堵在路上,有人回广东开了超16小时

第一批返程的人已堵在路上,有人回广东开了超16小时

新快报新闻
2026-02-22 17:11:05
医生,你正经点行吗?盘点那些网友和医护人员之间爆笑有趣的对话

医生,你正经点行吗?盘点那些网友和医护人员之间爆笑有趣的对话

另子维爱读史
2026-02-22 21:23:33
易梦玲一双金灿灿的大灯,明艳晃眼

易梦玲一双金灿灿的大灯,明艳晃眼

吃瓜党二号头目
2026-02-13 08:13:30
博士读着读着导师变后妈,毕业还延期了…还有更离谱的吗?

博士读着读着导师变后妈,毕业还延期了…还有更离谱的吗?

超级数学建模
2026-02-22 22:38:39
林孝埈再次致歉!孙龙自责泪崩+哽咽:做了努力但是,没有办法

林孝埈再次致歉!孙龙自责泪崩+哽咽:做了努力但是,没有办法

风过乡
2026-02-22 11:52:45
回顾:上海杀妻案朱晓东被处死刑,狱中对妻子的评价,让人胆寒

回顾:上海杀妻案朱晓东被处死刑,狱中对妻子的评价,让人胆寒

谈史论天地
2026-02-11 13:30:11
如果今天无法逆袭,今年春节档很可能是近8年最差

如果今天无法逆袭,今年春节档很可能是近8年最差

动物奇奇怪怪
2026-02-22 10:48:07
韩媒:韩国“唯一领先战略技术”,也被中国反超了

韩媒:韩国“唯一领先战略技术”,也被中国反超了

第一财经资讯
2026-02-22 18:59:10
下周转运!这3个生肖横财大发,贵人悄悄帮你铺路!

下周转运!这3个生肖横财大发,贵人悄悄帮你铺路!

毅谈生肖
2026-02-22 13:17:06
成龙父子飞米兰过年,房祖名气质沉稳变成熟,太像年轻时候的龙叔

成龙父子飞米兰过年,房祖名气质沉稳变成熟,太像年轻时候的龙叔

疯说时尚
2026-02-22 11:32:55
CCTV5直播中日男篮世预赛,徐杰被曝缺席,谁能顶替王俊杰的位置

CCTV5直播中日男篮世预赛,徐杰被曝缺席,谁能顶替王俊杰的位置

体育大学僧
2026-02-22 10:09:56
情况有变!巴萨或放弃拉什福德改买曼城天才边锋,主帅弗里克钦点

情况有变!巴萨或放弃拉什福德改买曼城天才边锋,主帅弗里克钦点

零度眼看球
2026-02-22 16:03:52
2026-02-23 02:51:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

教育要闻

高中不是拼天赋,是拼谁不先放弃

头条要闻

男子持霰弹枪燃烧罐闯特朗普私宅被击毙 细节披露

头条要闻

男子持霰弹枪燃烧罐闯特朗普私宅被击毙 细节披露

体育要闻

谷爱凌:6次参赛6次夺牌 我对自己非常自豪

娱乐要闻

谷爱凌:真正的强大 敢接纳生命的节奏

财经要闻

特朗普新加征关税税率从10%提升至15%

科技要闻

马斯克:星舰每年将发射超过10000颗卫星

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

房产
亲子
艺术
数码
公开课

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

亲子要闻

萌娃看见阿姨的大肚子竟这样说,着急的样子萌化了

艺术要闻

谁能想到,“饺子包”火了!还是韭菜鸡蛋味儿,超吸睛!

数码要闻

古尔曼:苹果3月2 - 4日发布“至少五款产品”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版