OpenMOSS团队推出真正的"语音到语音"AI模型MOSS-Speech|翻译|模态|speech

分享至

如果你用过Siri或小爱同学，应该对语音助手的工作原理有所了解：你说话，它先把语音转成文字，再理解文字内容，接着生成文字回复，最后把文字转成语音播放给你。这个过程虽然看似自然，却存在一个根本问题——在转换过程中，你声音里的情感、语气、犹豫、笑声等丰富信息都被丢掉了，AI只能生成机械化的标准回复。

这项由上海创新研究院、复旦大学和MOSI联合开展的研究发表于2025年10月的arXiv预印本平台（论文编号：arXiv:2510.00499v2），研究团队开发出名为MOSS-Speech的革命性语音AI模型。这个模型最大的突破在于，它能够直接理解和生成语音，完全跳过了传统的文字转换环节，就像人与人对话一样自然流畅。

传统语音助手就像一个需要翻译的对话场景：你用中文说话，助手先翻译成英文理解，再用英文思考答案，最后翻译回中文告诉你。而MOSS-Speech则像一个真正会说中文的朋友，可以直接用中文与你对话，保留你声音中的所有细微情感和表达方式。

这种创新的意义远超技术本身。在日常生活中，我们的语音交流充满了丰富的副语言信息——一个叹气可能表达挫折，一声轻笑可能暗示玩笑，说话时的停顿可能透露思考或紧张。传统语音助手就像一个情感盲人，只能看到对话的字面意思，却无法感受到这些微妙的情感色彩。MOSS-Speech的出现，让AI第一次具备了这种"听懂弦外之音"的能力。

一、模型架构的巧妙设计

研究团队面临的第一个挑战是如何让AI既能处理语音，又不丢失原有的文本理解能力。这就像要培养一个既会画画又会写字的艺术家，而不是让他学会画画后就忘记了写字。

他们的解决方案采用了一种叫做"模态层分离"的设计。可以把这想象成一个多功能的工作台，前面的部分是公共区域，大家都可以使用，而后面分成两个专用区域，一个专门用来处理语音工作，另一个专门处理文字工作。具体来说，他们使用了一个36层的大型神经网络模型，前32层是所有任务的共享部分，最后4层则分成两个并行分支：一个专门负责生成文本，另一个专门负责生成语音。

这种设计的巧妙之处在于，它让模型能够在共享的前32层中学习语音和文本之间的深层对应关系，就像学习不同语言中相同概念的表达方式。研究团队通过实验发现了一个有趣现象：在模型的前25层中，语音和文本的内部表示越来越相似，就像两种不同的语言在表达相同含义时逐渐趋于一致。但在最后几层中，这种相似性开始下降，表示模型开始为不同的输出形式做准备。

为了深入理解这个现象，研究团队做了一个类似"解剖"的实验。他们选取了同一句话的语音版本和文字版本，追踪它们在模型各层中的内部表示，发现相似度在第10层左右达到峰值，然后保持稳定，直到第25层开始分化。这个发现为他们在第32层进行分离提供了科学依据。

二、语音编码技术的创新

在语音处理方面，研究团队开发了一套全新的语音编码系统，这套系统需要同时满足四个看似矛盾的要求：足够简单以便AI理解、足够高效以便实时处理、足够完整以保留语音细节、足够智能以理解语音含义。

这就像设计一套速记系统，既要简单到可以快速书写，又要完整到不丢失重要信息，还要智能到能够传达说话者的情感和语气。传统的语音编码系统往往只关注语音的声学特征（比如音调高低、音量大小），而忽视了语音的语义内容。MOSS-Speech的编码系统则优先考虑语义信息，确保AI能够真正"理解"语音内容，而不仅仅是"听到"声音。

他们的编码器采用了一种基于语音识别的训练方法，这意味着编码器在学习如何压缩语音的同时，也在学习如何理解语音的含义。这种方法产生的编码不仅包含了语音的声学特征，还包含了丰富的语义信息，为后续的AI理解和生成奠定了基础。

在解码方面，他们采用了流匹配技术，这是一种相对较新的生成方法，能够产生更自然、更流畅的语音输出。与传统的语音合成技术相比，流匹配技术能够更好地保持语音的自然度和表现力，同时支持实时流式处理，满足对话系统对低延迟的要求。

三、训练策略的精心设计

训练MOSS-Speech模型是一个极其复杂的过程，就像培养一个既懂音乐又懂文学的全才。研究团队采用了一种"冷冻预训练"的策略，这个名字听起来很技术化，但其实原理很简单：就像学习新技能时不要忘记已有技能一样。

他们从一个名为Qwen3-8B的预训练文本模型开始，这个模型已经具备了强大的文本理解和生成能力。接下来的挑战是如何在不破坏这些已有能力的前提下，为模型增加语音处理能力。

训练过程分为两个阶段。第一阶段是"语音对齐"阶段，研究团队将原始文本模型的参数"冻结"起来，只训练新增加的语音相关组件。这就像在一个已经建好的房子里增加新房间，而不改动原有的结构。在这个阶段，模型学习如何将语音信息映射到已有的知识框架中，建立语音和文本之间的对应关系。

第二阶段是"联合训练"阶段，研究团队解冻部分参数，让语音和文本组件能够更好地协调工作。为了防止新技能学习过程中忘记原有能力，他们在训练数据中混合了大量高质量的文本数据，就像在学习新课程的同时定期复习旧知识。

训练数据的规模令人印象深刻：研究团队收集了约900万小时的真实语音数据，相当于一个人连续说话1000多年。这些数据来源广泛，包括播客、视频内容等各种真实场景，确保模型能够理解各种不同的说话风格和语音环境。

为了进一步丰富训练数据，他们还使用了先进的文本到语音系统生成了大量合成语音数据。这就像用模拟器训练飞行员一样，虽然不是真实飞行，但能够提供大量练习机会。最终的训练数据集包含英文交替数据69万小时、中文交替数据95.2万小时，以及230.3万小时的无监督语音数据。

四、实验结果的全面验证

研究团队对MOSS-Speech进行了全方位的测试，就像新药上市前需要经过各种临床试验一样。测试结果显示，这个模型在多个维度都取得了突破性进展。

在语音理解能力测试中，MOSS-Speech在StoryCloze基准测试中表现优异。这个测试要求模型理解一段语音故事，然后选择最合适的结尾。MOSS-Speech在文本输入的版本中获得了84.87分，在语音输入版本中获得了63.17分，这个成绩超过了包括GLM-4-Voice和SpiritLM在内的所有对比模型。

更令人惊喜的是，MOSS-Speech在中文测试中的表现更加出色，在中文文本StoryCloze测试中获得了90.32分，在中文语音版本中获得了71.94分。这表明该模型不仅在英文环境中表现优秀，在中文环境中同样具备强大的理解和生成能力。

在保持原有能力方面，MOSS-Speech也交出了满意的答卷。在MMLU这个测试大型语言模型综合能力的标准基准上，MOSS-Speech获得了67.19分，而对比模型SpiritLM只有36.9分。这个巨大的差距表明，MOSS-Speech成功解决了传统多模态模型的一个重要问题：在学习新能力时不会大幅损失原有能力。

在实际对话质量测试中，研究团队使用了多个问答数据集进行评估，包括LlamaQA、TriviaQA和WebQA。结果显示，在不使用文本指导的纯语音到语音模式下，MOSS-Speech在LlamaQA上达到了77.33分，在TriviaQA上达到了45.20分，在WebQA上达到了45.9分。这些成绩都达到或接近了使用文本指导的对比系统的水平，证明了"真正的语音到语音"对话的可行性。

五、技术创新的深层价值

MOSS-Speech的技术创新不仅仅体现在性能数字上，更重要的是它解决了语音AI领域的一些根本性问题。

传统的语音对话系统面临着一个被称为"表达力瓶颈"的问题。由于需要通过文字作为中介，系统只能表达那些可以用文字准确描述的内容。比如，当你想表达犹豫时，可能会说"嗯..."或"这个....."，但这些在转换成文字时往往被过滤掉了。MOSS-Speech则能够直接处理和生成这些非言语表达，使得AI的回复更加自然和人性化。

另一个重要突破是延迟的大幅降低。传统系统需要经过"语音转文字-理解-生成-文字转语音"四个步骤，每个步骤都会增加延迟。而MOSS-Speech可以直接从语音到语音，减少了两个转换环节，使得对话更加流畅自然。

在训练效率方面，MOSS-Speech的创新也值得关注。由于采用了"冷冻预训练"策略，该模型能够充分利用现有的文本大语言模型的知识和能力，而不需要从零开始训练一个全新的语音理解系统。这不仅节省了大量的计算资源，也使得模型能够继承文本模型的推理能力和世界知识。

六、面临的挑战与解决思路

尽管取得了显著进展，MOSS-Speech仍然面临一些挑战。最主要的挑战是语音生成质量的进一步提升。虽然在语义理解方面已经达到了很高的水平，但在语音的自然度、情感表达的丰富性等方面仍有改进空间。

研究团队通过消融实验深入分析了不同设计选择的影响。他们发现，模态层分离和冷冻预训练这两个核心创新都对最终性能有重要贡献。没有模态层分离的版本在语音任务上的表现明显下降，而没有采用冷冻预训练策略的版本则在文本任务上出现了较大的性能倒退。

另一个挑战是如何处理更复杂的对话场景。目前的测试主要集中在相对简单的问答任务上，而真实世界的对话往往涉及多轮交互、话题转换、背景知识推理等更复杂的情况。研究团队正在扩展训练数据和改进模型架构，以应对这些更高层次的挑战。

在多语言支持方面，虽然MOSS-Speech在中英文上都表现良好，但扩展到更多语言仍需要大量工作。不同语言的语音特征、表达习惯、文化背景都有所不同，需要针对性的优化和调整。

七、实际应用的广阔前景

MOSS-Speech的成功为语音AI的实际应用开辟了新的可能性。在智能客服领域，这项技术能够让AI客服真正理解用户的情绪状态，提供更贴心的服务。当用户因为问题没有得到解决而感到沮丧时，AI能够从语音中察觉到这种情绪，并调整自己的回应方式。

在教育领域，MOSS-Speech能够开发出更智能的语言学习工具。传统的语言学习软件只能纠正发音错误，而基于MOSS-Speech的系统则能够理解学习者的语音表达，提供更个性化的指导和反馈。

在无障碍技术方面，这项技术为视觉障碍者提供了更自然的人机交互体验。他们可以通过自然的语音对话获取信息、控制设备，而不需要学习复杂的语音命令格式。

在创意产业中，MOSS-Speech为音频内容制作提供了新工具。播客制作者、有声读物制作方等可以利用这项技术快速生成高质量的音频内容，同时保持内容的表达力和感染力。

研究团队还展示了MOSS-Speech在实时对话中的潜力。与传统系统相比，该模型能够在保持对话质量的同时显著降低响应延迟，使得语音交互体验更加流畅自然。这为开发下一代智能语音助手奠定了基础。

归根结底，MOSS-Speech代表了语音AI技术的一次重要突破。它不仅在技术上实现了"真正的语音到语音"对话，更重要的是为人工智能与人类的自然交流搭建了一座新的桥梁。当AI能够真正理解我们语音中的情感和细节，并用同样丰富的语音回应我们时，人机交互将变得更加自然和亲切。

这项研究的意义远超技术本身，它预示着一个更加智能、更加人性化的AI时代即将到来。随着技术的进一步发展和完善，我们有理由相信，未来的AI助手将不再是冷冰冰的机器，而是能够真正理解和回应人类情感的智能伙伴。对于想要深入了解这项研究的读者，可以通过论文编号arXiv:2510.00499v2在arXiv平台上查阅完整的技术论文。

Q&A

Q1：MOSS-Speech与传统语音助手有什么根本区别？

A：MOSS-Speech最大的区别是能够直接处理语音，不需要先转成文字再理解。传统助手像翻译官，需要把你的话先翻译成文字，再翻译回语音回复你，过程中会丢失情感、语气等信息。而MOSS-Speech就像直接对话，能保留你声音中的所有细节和情感。

Q2：MOSS-Speech的语音编码技术有什么特殊之处？

A：MOSS-Speech的语音编码系统同时关注语音的含义和声学特征，不像传统系统只关注声音本身。它采用基于语音识别的训练方法，让编码器在压缩语音的同时学会理解语音含义，产生的编码既包含声学信息也包含语义信息，为AI理解奠定基础。

Q3：为什么MOSS-Speech能同时保持文本和语音处理能力？

A：研究团队采用了"冷冻预训练"策略和"模态层分离"设计。就像在已建好的房子里加新房间而不改动原结构，他们先冻结原有的文本处理能力，只训练语音组件，然后在模型最后4层分成文本和语音两个专用分支，前32层共享使用，这样既学会了语音处理又保留了原有能力。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.