网易首页 > 网易号 > 正文 申请入驻

字节Seed最新模型,让豆包学会闭嘴听人说话(骂人也更自然了!)

0
分享至


作者 | 董道力
邮箱 | dongdaoli@pingwest.com

4 月 9 日,字节跳动旗下 AI 研究团队 Seed 发布了新的语音模型 Seeduplex,同步完成了在豆包 App 的全量上线。


语音模型我们已经见过很多了,更新迭代无非是声音更拟人、延迟更低。而 Seeduplex 的亮点不在这些,而是它文章标题里藏着的一个词:Full-Duplex,中文翻译过来叫“全双工”。

这几个字,到底什么意思。

1

豆包学会边说边听

全双工是通信工程里的术语,简单来说,就是通信双方可以同时收发信号,互不干扰。

比如对讲机是半双工,同一时刻只能一个人说话,说完松开按钮对方才能开口,而电话是全双工,两个人可以同时说话,同时听。

豆包此前的语音模型,本质上是对讲机逻辑。架构上"听"和"说"是两个独立状态,不能同时运行。

模型在输出语音的时候,麦克风输入要么被关掉,要么不被处理。判断你是否说完了的,是一个叫 VAD(语音活动检测)的独立模块,检测到声音停了,才切换到"处理"状态,再生成回复。

VAD 只看声音有没有,不懂你在说什么。你停两秒想词,它判定你说完了,旁边有人咳嗽,它判定你开口了。

按字节的技术文档说法,传统半双工系统"使用独立的 VAD 进行机械式音频分割,由于决策仅限于孤立的声学特征或局部文本语义特征,这些系统在复杂环境中容易被带跑,或在用户停顿时触发过早响应"。

Seeduplex 则解决了这个问题。

模型在说话的同时,持续处理麦克风输入,实时判断哪些声音是用户在对它说话,哪些是背景噪音,哪些是停顿思考而不是说完了。

这套判断交由同一个 LLM 统一完成,声学特征和语义上下文同时参与决策,不再是几个独立模块各干各的。和此前豆包使用的半双工框架相比,Seeduplex 的判停 MOS 分提高了 8%,对话流畅度 MOS 分提升了 12%。

(MOS 是通信领域衡量语音质量的主观评测标准,本质上是让真实用户打分,再取平均值。分数越高,代表用户感知到的体验越好。)

具体指标上,判停延迟降低约 250ms,复杂场景下 AI 抢话比例减少 40%,用户想打断时,响应延迟缩短约 300ms,准确率同步提升,复杂声学干扰场景下,误回复率和误打断率降低一半。


字节还做了一组真人对话测试,把 Seeduplex、半双工方案和人人对话放在一起比。判停上 Seeduplex 比半双工提升了 8%。响应打断上甚至略好于人人对话的平均水平,因为真实对话里人也会偶尔反应慢(其实半双工也好于人人)。但整体对话流畅度上,和真人聊天仍有不小的差距。

1

全双工的豆包交互更加自然

说完技术层面的变化,使用场景上,全双工的 AI 语音的边界也有不小扩展。

比如开车时,车里广播和导航同时在响,你顺口问 AI"这条路堵不堵",Seeduplex 能从混杂的声音里分辨出哪句是你说的,直接回答,而不是被导航播报带跑。


在咖啡馆碰到朋友打了个招呼,或者快递员敲门你随口应了一声,AI 能判断出这些话不是对它说的,不会插进来乱回。

练英语口语时,你磕磕绊绊说了半句,停下来想词,改口重说,AI 不会在你停顿的间隙抢话,而是等你把完整的意思说出来,再给反馈。

这几个场景有一个共同点:你不需要专门腾出时间、找安静地方、说完整句子。对话嵌进了日常活动,而不是日常活动为对话让路。

全双工还带来了一种新的交互可能,AI 开始有了"说话间隙"。以前 AI 说话时你只能等,或者出声强行打断,但它停下来不是因为听懂了你想说什么,而是检测到有声音进来了。现在你说"等一下",它能听懂这是打断意图,立刻停下来。

反过来,当你在说话时,AI 也能给出实时的回应信号,比如"嗯""好的",而不是沉默着等你把话说完。

这种你来我往的节奏,是半双工架构物理上做不到的事。

之前的半双工 AI 语音的隐性前提是,用户必须进入"使用 AI 模式"。这个前提把语音 AI 的可用场景锁在了一个很窄的范围里。

全双工解决了这个前提,让用户更愿意和豆包对话了。

1

AI 语音助手的技术分野

全双工语音 AI 的竞争格局,目前有几个方向在跑,技术路线差异很大。

原生音频全双工是走得最远、也最难落地的一条。

代表是法国 AI 实验室 Kyutai 在 2024 年 9 月发布的开源模型 Moshi,用同一个底层模型在并行流上同时对用户音频和系统音频建模,并引入"内心独白"机制,在生成音频的同时预测对齐文本作为内部推理层,顺带获得了流式转写能力。

NVIDIA 今年 1 月发布的 PersonaPlex 在此基础上引入混合提示系统,让模型可以通过文字定义角色、语音嵌入定义声音特征,扮演特定人格。

这个方向的问题是稳定性,学术先驱居多,没有产品化落地。


Thinker-Talker分离架构是另一种实现路径。

阿里 2025 年 3 月发布的 Qwen2.5-Omni 将推理和输出拆成 Thinker 与 Talker 两个组件,前者在文本域完成推理,后者把结果实时转为音频,LLM 生态的长上下文、工具调用、检索注入全部可以复用。

代价是同时听说比双流方案更难实现,端到端延迟高于流式级联管道方案。


流式级联管道(ASR→LLM→TTS)是目前生产环境最普遍的方案。延迟可控在 1 秒以内,工具调用支持最成熟,但本质是轮流制,系统必须等用户说完才能处理,全双工能力无从谈起。

Seeduplex 属于原生音频全双工方向,但解决了其他方案没有解决的问题:在豆包上稳定运行。

学术环境和产品环境的差距,比多数人想象的大。字节在技术文档中提到,落地过程中需要解决的包括高并发下的延迟抖动、音频输入输出卡顿和服务稳定性,这些问题在论文里不存在,在数亿用户面前全会出现。

全双工解决了能不能同时听说的问题,说得多自然还需要改进。

字节自己在文章末尾也承认,与真人对话相比,整体流畅度仍有相当差距。下一步包括多方对话场景优化、引入视觉输入实现听看说联动,以及边听边思考、边听边搜索等方向,每一个都是新的工程难题。

从对讲机到电话,中间有很多年的演化,Seeduplex 是这条路上的一个节点,不是终点。


点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
300152,相关股东被证监会立案调查!

300152,相关股东被证监会立案调查!

证券时报e公司
2026-04-10 22:55:27
一名比特币矿工以三百年一遇的概率赢得全部比特币区块奖励

一名比特币矿工以三百年一遇的概率赢得全部比特币区块奖励

算力之心
2026-04-10 17:39:58
千亿存储巨头德明利,横空出世了

千亿存储巨头德明利,横空出世了

财经锐眼
2026-04-10 17:41:27
丰田社长警告484家供应商:中国电车面前,不改革就灭亡

丰田社长警告484家供应商:中国电车面前,不改革就灭亡

不掉线电波
2026-04-09 10:29:44
只差1349分!杜兰特把科比拉下第四名 真的只是时间问题?

只差1349分!杜兰特把科比拉下第四名 真的只是时间问题?

体坛八点半的那些事儿
2026-04-01 20:42:36
巴塞罗那梦碎:马德里竞技将向阿尔瓦雷斯提供双倍薪资新合同

巴塞罗那梦碎:马德里竞技将向阿尔瓦雷斯提供双倍薪资新合同

本泽体育
2026-04-10 04:47:07
“被教练强吻了,他是喜欢我还是玩我?”

“被教练强吻了,他是喜欢我还是玩我?”

健身厨屋
2025-11-07 14:31:01
梅根心情大好带孩子去平价玩店,保镖路虎一样不落,公爵派头十足

梅根心情大好带孩子去平价玩店,保镖路虎一样不落,公爵派头十足

聪明的橙子hj
2026-04-09 18:07:21
天津启动八大工程!事关所有人!

天津启动八大工程!事关所有人!

全接触狐狐
2026-04-10 13:53:00
军事专家戴旭:目前世界没有一个国家敢,在军事方面和我们较量

军事专家戴旭:目前世界没有一个国家敢,在军事方面和我们较量

健身狂人
2026-04-10 18:06:15
月薪8000正在毁掉打工人

月薪8000正在毁掉打工人

听见亚东
2026-04-02 07:20:21
2-1险胜19岁巴西新星,兹维列夫晋级ATP1000蒙特卡洛大师赛4强

2-1险胜19岁巴西新星,兹维列夫晋级ATP1000蒙特卡洛大师赛4强

侧身凌空斩
2026-04-10 20:11:39
曝鹈鹕考虑为锡安提供一份年薪3000-3500万的合同

曝鹈鹕考虑为锡安提供一份年薪3000-3500万的合同

北青网-北京青年报
2026-04-10 19:52:04
“穷养女真可怜”,买10分钟商务坐拍了9分钟,鞋子让人无语

“穷养女真可怜”,买10分钟商务坐拍了9分钟,鞋子让人无语

蝴蝶花雨话教育
2026-04-10 12:52:50
“黄毛的爹,酗酒的妈”,上海三口之家火了,只有孩子看着不叛逆

“黄毛的爹,酗酒的妈”,上海三口之家火了,只有孩子看着不叛逆

妍妍教育日记
2026-03-29 07:40:03
反转了,确认系摆拍!3人被行拘

反转了,确认系摆拍!3人被行拘

新浪财经
2026-04-09 13:57:12
他是影响两岸统一进程的关键人物,若非是他,台湾问题或早已解决

他是影响两岸统一进程的关键人物,若非是他,台湾问题或早已解决

鹤羽说个事
2026-03-01 17:21:10
郑爽疑精神失常!34岁满头白发,与张恒家人街头争吵,孩子吓得大哭

郑爽疑精神失常!34岁满头白发,与张恒家人街头争吵,孩子吓得大哭

八卦王者
2026-03-19 11:48:39
万万没想到,全球局势中“最乱”的竟是中国

万万没想到,全球局势中“最乱”的竟是中国

安安说
2026-01-23 09:12:29
“老师最烦这种现眼包家长”,宝妈穿紧身裙参加运动会,被嘲

“老师最烦这种现眼包家长”,宝妈穿紧身裙参加运动会,被嘲

蝴蝶花雨话教育
2026-04-02 10:30:13
2026-04-11 03:08:49
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2997文章数 10481关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

特朗普:美军舰已装最先进武器 未来24小时成关键窗口

头条要闻

特朗普:美军舰已装最先进武器 未来24小时成关键窗口

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

黄景瑜王玉雯否认恋情!聚会细节被扒

财经要闻

李强主持召开经济形势专家和企业家座谈会

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

健康
亲子
本地
游戏
军事航空

干细胞抗衰4大误区,90%的人都中招

亲子要闻

看热闹这玩意随根啊

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

《霍格沃茨之遗2》传闻2027年发售!今年有望首曝

军事要闻

特朗普:对美国与伊朗达成和平协议“非常乐观”

无障碍浏览 进入关怀版