字节Seed最新模型，让豆包学会闭嘴听人说话（骂人也更自然了！）|调用|麦克风|电子表格

字节Seed最新模型，让豆包学会闭嘴听人说话（骂人也更自然了！）

2026-04-10 09:48:09　来源: 硅星人

北京举报

分享至

作者｜董道力
邮箱｜ dongdaoli@pingwest.com

4 月 9 日，字节跳动旗下 AI 研究团队 Seed 发布了新的语音模型 Seeduplex，同步完成了在豆包 App 的全量上线。

语音模型我们已经见过很多了，更新迭代无非是声音更拟人、延迟更低。而 Seeduplex 的亮点不在这些，而是它文章标题里藏着的一个词：Full-Duplex，中文翻译过来叫“全双工”。

这几个字，到底什么意思。

豆包学会边说边听

全双工是通信工程里的术语，简单来说，就是通信双方可以同时收发信号，互不干扰。

比如对讲机是半双工，同一时刻只能一个人说话，说完松开按钮对方才能开口，而电话是全双工，两个人可以同时说话，同时听。

豆包此前的语音模型，本质上是对讲机逻辑。架构上"听"和"说"是两个独立状态，不能同时运行。

模型在输出语音的时候，麦克风输入要么被关掉，要么不被处理。判断你是否说完了的，是一个叫 VAD（语音活动检测）的独立模块，检测到声音停了，才切换到"处理"状态，再生成回复。

VAD 只看声音有没有，不懂你在说什么。你停两秒想词，它判定你说完了，旁边有人咳嗽，它判定你开口了。

按字节的技术文档说法，传统半双工系统"使用独立的 VAD 进行机械式音频分割，由于决策仅限于孤立的声学特征或局部文本语义特征，这些系统在复杂环境中容易被带跑，或在用户停顿时触发过早响应"。

Seeduplex 则解决了这个问题。

模型在说话的同时，持续处理麦克风输入，实时判断哪些声音是用户在对它说话，哪些是背景噪音，哪些是停顿思考而不是说完了。

这套判断交由同一个 LLM 统一完成，声学特征和语义上下文同时参与决策，不再是几个独立模块各干各的。和此前豆包使用的半双工框架相比，Seeduplex 的判停 MOS 分提高了 8%，对话流畅度 MOS 分提升了 12%。

（MOS 是通信领域衡量语音质量的主观评测标准，本质上是让真实用户打分，再取平均值。分数越高，代表用户感知到的体验越好。)

具体指标上，判停延迟降低约 250ms，复杂场景下 AI 抢话比例减少 40%，用户想打断时，响应延迟缩短约 300ms，准确率同步提升，复杂声学干扰场景下，误回复率和误打断率降低一半。

字节还做了一组真人对话测试，把 Seeduplex、半双工方案和人人对话放在一起比。判停上 Seeduplex 比半双工提升了 8%。响应打断上甚至略好于人人对话的平均水平，因为真实对话里人也会偶尔反应慢（其实半双工也好于人人）。但整体对话流畅度上，和真人聊天仍有不小的差距。

全双工的豆包交互更加自然

说完技术层面的变化，使用场景上，全双工的 AI 语音的边界也有不小扩展。

比如开车时，车里广播和导航同时在响，你顺口问 AI"这条路堵不堵"，Seeduplex 能从混杂的声音里分辨出哪句是你说的，直接回答，而不是被导航播报带跑。

在咖啡馆碰到朋友打了个招呼，或者快递员敲门你随口应了一声，AI 能判断出这些话不是对它说的，不会插进来乱回。

练英语口语时，你磕磕绊绊说了半句，停下来想词，改口重说，AI 不会在你停顿的间隙抢话，而是等你把完整的意思说出来，再给反馈。

这几个场景有一个共同点：你不需要专门腾出时间、找安静地方、说完整句子。对话嵌进了日常活动，而不是日常活动为对话让路。

全双工还带来了一种新的交互可能，AI 开始有了"说话间隙"。以前 AI 说话时你只能等，或者出声强行打断，但它停下来不是因为听懂了你想说什么，而是检测到有声音进来了。现在你说"等一下"，它能听懂这是打断意图，立刻停下来。

反过来，当你在说话时，AI 也能给出实时的回应信号，比如"嗯""好的"，而不是沉默着等你把话说完。

这种你来我往的节奏，是半双工架构物理上做不到的事。

之前的半双工 AI 语音的隐性前提是，用户必须进入"使用 AI 模式"。这个前提把语音 AI 的可用场景锁在了一个很窄的范围里。

全双工解决了这个前提，让用户更愿意和豆包对话了。

AI 语音助手的技术分野

全双工语音 AI 的竞争格局，目前有几个方向在跑，技术路线差异很大。

原生音频全双工是走得最远、也最难落地的一条。

代表是法国 AI 实验室 Kyutai 在 2024 年 9 月发布的开源模型 Moshi，用同一个底层模型在并行流上同时对用户音频和系统音频建模，并引入"内心独白"机制，在生成音频的同时预测对齐文本作为内部推理层，顺带获得了流式转写能力。

NVIDIA 今年 1 月发布的 PersonaPlex 在此基础上引入混合提示系统，让模型可以通过文字定义角色、语音嵌入定义声音特征，扮演特定人格。

这个方向的问题是稳定性，学术先驱居多，没有产品化落地。

Thinker-Talker分离架构是另一种实现路径。

阿里 2025 年 3 月发布的 Qwen2.5-Omni 将推理和输出拆成 Thinker 与 Talker 两个组件，前者在文本域完成推理，后者把结果实时转为音频，LLM 生态的长上下文、工具调用、检索注入全部可以复用。

代价是同时听说比双流方案更难实现，端到端延迟高于流式级联管道方案。

流式级联管道（ASR→LLM→TTS）是目前生产环境最普遍的方案。延迟可控在 1 秒以内，工具调用支持最成熟，但本质是轮流制，系统必须等用户说完才能处理，全双工能力无从谈起。

Seeduplex 属于原生音频全双工方向，但解决了其他方案没有解决的问题：在豆包上稳定运行。

学术环境和产品环境的差距，比多数人想象的大。字节在技术文档中提到，落地过程中需要解决的包括高并发下的延迟抖动、音频输入输出卡顿和服务稳定性，这些问题在论文里不存在，在数亿用户面前全会出现。

全双工解决了能不能同时听说的问题，说得多自然还需要改进。

字节自己在文章末尾也承认，与真人对话相比，整体流畅度仍有相当差距。下一步包括多方对话场景优化、引入视觉输入实现听看说联动，以及边听边思考、边听边搜索等方向，每一个都是新的工程难题。

从对讲机到电话，中间有很多年的演化，Seeduplex 是这条路上的一个节点，不是终点。

点个“爱心”，再走吧

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

字节Seed最新模型，让豆包学会闭嘴听人说话（骂人也更自然了！）

马斯克狂发大火箭也养不起AI 年亏50亿美元

特朗普:美军舰已装最先进武器 未来24小时成关键窗口

特朗普:美军舰已装最先进武器 未来24小时成关键窗口

17岁赚了一百万美元，25岁被CBA裁员

黄景瑜王玉雯否认恋情！聚会细节被扒

李强主持召开经济形势专家和企业家座谈会

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

干细胞抗衰4大误区,90%的人都中招

看热闹这玩意随根啊

12吨巧克力有难，全网化身超级侦探添乱

《霍格沃茨之遗2》传闻2027年发售！今年有望首曝

特朗普：对美国与伊朗达成和平协议“非常乐观”

特朗普:美军舰已装最先进武器未来24小时成关键窗口

特朗普:美军舰已装最先进武器未来24小时成关键窗口

搭载第二代刀片电池及闪充技术腾势N8L闪充版预售35万起