![]()
作者 | 董道力
邮箱 | dongdaoli@pingwest.com
4 月 9 日,字节跳动旗下 AI 研究团队 Seed 发布了新的语音模型 Seeduplex,同步完成了在豆包 App 的全量上线。
![]()
语音模型我们已经见过很多了,更新迭代无非是声音更拟人、延迟更低。而 Seeduplex 的亮点不在这些,而是它文章标题里藏着的一个词:Full-Duplex,中文翻译过来叫“全双工”。
这几个字,到底什么意思。
1
豆包学会边说边听
全双工是通信工程里的术语,简单来说,就是通信双方可以同时收发信号,互不干扰。
比如对讲机是半双工,同一时刻只能一个人说话,说完松开按钮对方才能开口,而电话是全双工,两个人可以同时说话,同时听。
豆包此前的语音模型,本质上是对讲机逻辑。架构上"听"和"说"是两个独立状态,不能同时运行。
模型在输出语音的时候,麦克风输入要么被关掉,要么不被处理。判断你是否说完了的,是一个叫 VAD(语音活动检测)的独立模块,检测到声音停了,才切换到"处理"状态,再生成回复。
VAD 只看声音有没有,不懂你在说什么。你停两秒想词,它判定你说完了,旁边有人咳嗽,它判定你开口了。
按字节的技术文档说法,传统半双工系统"使用独立的 VAD 进行机械式音频分割,由于决策仅限于孤立的声学特征或局部文本语义特征,这些系统在复杂环境中容易被带跑,或在用户停顿时触发过早响应"。
Seeduplex 则解决了这个问题。
模型在说话的同时,持续处理麦克风输入,实时判断哪些声音是用户在对它说话,哪些是背景噪音,哪些是停顿思考而不是说完了。
这套判断交由同一个 LLM 统一完成,声学特征和语义上下文同时参与决策,不再是几个独立模块各干各的。和此前豆包使用的半双工框架相比,Seeduplex 的判停 MOS 分提高了 8%,对话流畅度 MOS 分提升了 12%。
(MOS 是通信领域衡量语音质量的主观评测标准,本质上是让真实用户打分,再取平均值。分数越高,代表用户感知到的体验越好。)
具体指标上,判停延迟降低约 250ms,复杂场景下 AI 抢话比例减少 40%,用户想打断时,响应延迟缩短约 300ms,准确率同步提升,复杂声学干扰场景下,误回复率和误打断率降低一半。
![]()
字节还做了一组真人对话测试,把 Seeduplex、半双工方案和人人对话放在一起比。判停上 Seeduplex 比半双工提升了 8%。响应打断上甚至略好于人人对话的平均水平,因为真实对话里人也会偶尔反应慢(其实半双工也好于人人)。但整体对话流畅度上,和真人聊天仍有不小的差距。
1
全双工的豆包交互更加自然
说完技术层面的变化,使用场景上,全双工的 AI 语音的边界也有不小扩展。
比如开车时,车里广播和导航同时在响,你顺口问 AI"这条路堵不堵",Seeduplex 能从混杂的声音里分辨出哪句是你说的,直接回答,而不是被导航播报带跑。
![]()
在咖啡馆碰到朋友打了个招呼,或者快递员敲门你随口应了一声,AI 能判断出这些话不是对它说的,不会插进来乱回。
练英语口语时,你磕磕绊绊说了半句,停下来想词,改口重说,AI 不会在你停顿的间隙抢话,而是等你把完整的意思说出来,再给反馈。
这几个场景有一个共同点:你不需要专门腾出时间、找安静地方、说完整句子。对话嵌进了日常活动,而不是日常活动为对话让路。
全双工还带来了一种新的交互可能,AI 开始有了"说话间隙"。以前 AI 说话时你只能等,或者出声强行打断,但它停下来不是因为听懂了你想说什么,而是检测到有声音进来了。现在你说"等一下",它能听懂这是打断意图,立刻停下来。
反过来,当你在说话时,AI 也能给出实时的回应信号,比如"嗯""好的",而不是沉默着等你把话说完。
这种你来我往的节奏,是半双工架构物理上做不到的事。
之前的半双工 AI 语音的隐性前提是,用户必须进入"使用 AI 模式"。这个前提把语音 AI 的可用场景锁在了一个很窄的范围里。
全双工解决了这个前提,让用户更愿意和豆包对话了。
1
AI 语音助手的技术分野
全双工语音 AI 的竞争格局,目前有几个方向在跑,技术路线差异很大。
原生音频全双工是走得最远、也最难落地的一条。
代表是法国 AI 实验室 Kyutai 在 2024 年 9 月发布的开源模型 Moshi,用同一个底层模型在并行流上同时对用户音频和系统音频建模,并引入"内心独白"机制,在生成音频的同时预测对齐文本作为内部推理层,顺带获得了流式转写能力。
NVIDIA 今年 1 月发布的 PersonaPlex 在此基础上引入混合提示系统,让模型可以通过文字定义角色、语音嵌入定义声音特征,扮演特定人格。
这个方向的问题是稳定性,学术先驱居多,没有产品化落地。
![]()
Thinker-Talker分离架构是另一种实现路径。
阿里 2025 年 3 月发布的 Qwen2.5-Omni 将推理和输出拆成 Thinker 与 Talker 两个组件,前者在文本域完成推理,后者把结果实时转为音频,LLM 生态的长上下文、工具调用、检索注入全部可以复用。
代价是同时听说比双流方案更难实现,端到端延迟高于流式级联管道方案。
![]()
流式级联管道(ASR→LLM→TTS)是目前生产环境最普遍的方案。延迟可控在 1 秒以内,工具调用支持最成熟,但本质是轮流制,系统必须等用户说完才能处理,全双工能力无从谈起。
Seeduplex 属于原生音频全双工方向,但解决了其他方案没有解决的问题:在豆包上稳定运行。
学术环境和产品环境的差距,比多数人想象的大。字节在技术文档中提到,落地过程中需要解决的包括高并发下的延迟抖动、音频输入输出卡顿和服务稳定性,这些问题在论文里不存在,在数亿用户面前全会出现。
全双工解决了能不能同时听说的问题,说得多自然还需要改进。
字节自己在文章末尾也承认,与真人对话相比,整体流畅度仍有相当差距。下一步包括多方对话场景优化、引入视觉输入实现听看说联动,以及边听边思考、边听边搜索等方向,每一个都是新的工程难题。
从对讲机到电话,中间有很多年的演化,Seeduplex 是这条路上的一个节点,不是终点。
![]()
点个“爱心”,再走 吧
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.