实时交互破局！SpeechGPT 2.0-preview端到端超越OpenAI|知识库|云计算费用

实时交互破局！SpeechGPT 2.0-preview端到端超越OpenAI

分享至

始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在，欢迎加入共同成长。wisemodel社区上线，最新上线4090资源不限量，价格实惠，灵活方便，支持在线微调训练模型，及和，并。

在AI语音交互领域，重大突破正在改写格局！OpenAI尚未实现的实时交互，被中国团队以创新性「端到端」方案成功攻克。

成果便是备受瞩目的SpeechGPT 2.0-preview ，这是迈向情景智能推出的首个拟人化实时交互系统，基于百万小时级语音数据训练。

其端到端语音大模型设计，实现拟人口语化表达、百毫秒级低延迟响应与实时打断交互，还对齐语音和文本模态，支持多情感风格控制、工具调用等，尽显技术创新实力。该模型已上线始智AI-wisemodel开源社区，欢迎大家前去体验。

模型地址

https://wisemodel.cn/models/singularity/SpeechGPT-2.0-preview-7B

01.

模型概述

SpeechGPT 2.0-preview是迈向情景智能推出的第一个拟人化实时交互系统。作为在百万小时级语音数据上训练的端到端语音大模型，它具有拟人口语化表达与百毫秒级低延迟响应，支持自然流畅的实时打断交互。

SpeechGPT 2.0-preview较好的对齐了语音和文本两个模态：

一方面展现出了一定的风格泛化能力，能够遵循用户指令，实现多情感、多风格、多音色的控制与智能切换；拥有不错的角色扮演能力，能够模拟各类角色的语气和情感状态；它还具备多种语音才艺，能够进行诗歌朗诵、故事讲述、说方言等；

另一方面，它在具备语音表现力的同时有不错的智商与文本能力，从而具备支持工具调用、联网搜索、外挂知识库等功能的能力。

SpeechGPT 2.0-preview目前只在中文语音数据上做了训练，没有混英文语音数据训练，因此目前模型还没有英文对话能力。

02.

技术简介

SpeechGPT 2.0-preview作为一款端到端语音对话大模型，凝聚了研究团队在在端到端语音对话方向上的认知与技术积累和沉淀。在其开发进程中，一系列创新性技术与系统发挥了关键作用：

自研超低比特率流式语音Codec：能处理24khz的语音输入，将语音压缩至每秒75个token，支持流式输入输出，实现200ms以内延迟的实时交互。

语音数据处理系统：构建了高效的语音数据爬取系统、多功能高效率语音数据清洗pipeline和全方面多粒度语音数据标注系统，积累并精细标注了百万小时级的真实语音数据，为模型训练提供了丰富且高质量的数据。

对话语音合成系统：开发的对话语音合成系统具有高度口语化和极强音色克隆能力，基于此合成了数十万小时的多角色多风格语音对话数据，使模型的语音输出更加自然、丰富。

语音文本混合建模：提出新的语音文本混合建模模型架构以及多阶段语音文本混合建模训练流程，包括模态适应预训练、跨模态指令微调和链式模态微调等，兼顾了文本能力与语音能力，还能支持工具调用、联网搜索、外挂知识库等功能。

通过端到端的方式建模语音对话，SpeechGPT 2.0-preview 在实际测试中实现了200ms以内的延迟，能够为用户提供流畅的实时交互体验。

在实验过程中，研究团队也观察到了很多有意思的现象和结论：比如通过充分的语音文本对齐预训练，发现模型可以"涌现"出语音风格的泛化性，比如没有用语速调整的对话数据训练就可以做到语速控制，比如可以扮演对话数据中从未见过的角色与风格的语气等；语音数据合成引擎的质量是提升端到端语音模型的各训练阶段能力的关键。

语义-声学联合建模的超低比特率流式语音 Codec

SpeechGPT 2.0-preview具备一系列卓越关键特性，其支持24khz语音输入，采用语义-声学联合建模技术，实现了低比特率—750bps（每秒75 token），还支持流式输入输出，极大提升交互效率与体验。

基于Codec Patchify的语音-文本混合建模模型架构

Codec patchify，我们通过Codec patchify来有效减小语音和文本序列之间的模态差异，从而缓解跨模态建模中的冲突问题。具体而言，该方法将相邻T个时间步的RVQ codec token聚合为一个patch，通过patch projector模块将其映射为统一的向量表示，随后输入到speech-text LLM中进行联合建模。

在模型架构设计上，LLM的隐藏状态会同时用于两个解码任务：一方面解码生成文本输出，另一方面输入到patch decoder中进行语音重建。

特别地，研究团队设计了一个具有多解码头的自回归语言模型作为patch decoder，该模块能够通过自回归方式逐步解码，每次生成一个时间步的多个RVQ codec token，从而输出语音。

语音文本联合建模，灵活交叉自由组合，speech-text LLM会同时输入和输出语音和文本表示。

03.

模型能力

SpeechGPT 2.0-preview为用户提供了一系列令人瞩目的体验能力。当你与它交流时，会发现其对话输出极为自然流畅，高度口语化的表达就如同与身边的朋友亲切交谈，毫无生硬之感。在交互过程中，它能够做到实时响应，凭借先进的技术实现200ms以内的低延时，即使你在对话中途灵活打断，它也能迅速调整，紧跟你的思路。其生成的语音不仅情感丰富，可随语境表达出喜怒哀乐等多种情绪，而且风格多样，或幽默风趣，或沉稳专业。值得一提的是，它还擅长角色扮演，不管是扮演历史人物讲述过去的故事，还是模拟专业人士解答疑难问题，都能游刃有余，堪称多才多艺，为用户带来独一无二的对话体验。

SpeechGPT 2.0-preview在模型稳定性以及音质稳定性上还需要进一步的加强，研究团队正在进行双工模型的训练以及系统搭建，结合RLHF来增强模型表现力与稳定性以及进一步扩增语音数据量以及扩展到更多的语言，请期待下一版本的更新。

编辑丨赵雅鑫

----- END -----

wisemodel相关：

系统升级：

大赛报名：

系列模型：

关于wisemodel更多

欢迎持续关注和支持

开源社区建设需要长期坚持和投入，更需要广大用户的积极参与、贡献和维护，欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果，包括模型、数据集和代码等发布到 wisemodel.cn 社区，共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信，申请加入wisemodel社群，持续关注wisemodel.cn开源社区动态。

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来，逐渐成为影响力日益扩大的中立开放的AI开源社区，为了加快公司发展，我们长期需要技术、运营等人才加盟，技术侧重在AI infra、后端开发，熟悉K8S、模型训练和推理等技术，以及熟悉开发者生态运营的成员，欢迎感兴趣的朋友加盟，可以通过添加wisemodel微信，或者将简历投递到邮箱：liudaoquan@wisemodel.cn

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果，鼓励高校实验室、大企业研究团队、个人等，在wisemodel平台上分享各类优质内容，可以是AI领域最新论文解读、最新开源成果介绍，也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn，也可以扫码添加wisemodel微信。

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立，旨在打造和建设中立开放的AI开源创新社区，将打造成“HuggingFace”之外最活跃的AI开源社区，汇聚主要AI开源模型、数据集和代码等，欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者，以及政府部门、学会协会、联盟、基金会等，还有投资机构、科技媒体等，共同参与建设AI开源创新生态。

向上滑动查看

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.