网易首页 > 网易号 > 正文 申请入驻

我试了一下豆包的全双工语音,这些场景真的有点离谱

0
分享至

先说结论从"对讲机"到"真电话":全双工到底牛在哪?技术上是怎么做到的?•听流:持续监听你的声音,提取语义•说流:根据语义生成回复,同时播放实测场景1:嘈杂咖啡厅,它真的能"听懂谁在跟它说话"实测场景2:思考停顿,它终于不抢话了实测场景3:实时打断,反应速度快到有点吓人实测场景4:飞花令对战,高频互动也能扛住技术对比:字节vs OpenAI,谁赢了?1延迟持平:Seeduplex的320ms延迟,和OpenAI GPT-4o Realtime完全一致2中文优先:GPT-4o Realtime只支持英文,Seeduplex首次在中文场景落地全双工3规模化落地:其他模型要么在实验室,要么只开放API,Seeduplex已经在豆包App全量上线,日活超1.45亿行业意义:语音交互进入"实时流"时代如何体验?1更新豆包App至最新版本2点击对话框内的"打电话"按钮3选择桃子音色(目前只有这个音色支持全双工)4开始对话——一次唤醒,持续聊天写在最后

4月9日,字节跳动发布了原生全双工语音大模型Seeduplex,已在豆包App全量上线。

这不是一次普通的语音模型迭代。这是全球首个亿级用户可用的全双工语音模型,标志着AI语音交互从"回合制"正式迈入"实时流"时代。

关键是:延迟只有320毫秒,和OpenAI的GPT-4o Realtime持平,但支持中文。

我第一时间试了一下,说实话,有点被震撼到。

先说个概念:什么是全双工?

以前的AI语音助手,都是"半双工"——你说话时它听,它说话时你等。就像对讲机,按住说话,松开听对方回复。

全双工是什么?就像真正的电话——双方可以同时说话,你可以随时打断它,它也能在你说话时插话。

传统半双工语音助手的延迟普遍超过2秒,你需要说完一整句话,等它处理,再等它回复。这种"回合制"交互,本质上把人类自然对话切割成了碎片。

好家伙,这个区别有多大?打个比方:

半双工= 对讲机:说完按按钮,等对方回复
全双工= 真电话:边听边说,随时打断

Seeduplex的核心突破,就是让AI语音从"对讲机"进化成了"真电话"。

我翻了十几篇技术资料,发现Seeduplex用的是"双流并行"架构。

以前的语音助手,处理流程是这样的:你说话 → 语音识别(ASR) → 大模型理解(LLM) → 语音合成(TTS) → 播放。每一步都要等上一步完成,延迟就是这么来的。

Seeduplex呢?它把"听"和"说"分成两条并行流水线:

两条流水线同时跑,互不等待。这就是"边听边说"的技术本质。

用一个类比:以前的语音助手像"接力赛",一棒接一棒;Seeduplex像"双轨铁路",两列火车同时跑。

这个架构的代价是计算量翻倍,但字节通过"共享KV-Cache"技术,把计算量降低了27%。这就是为什么它能在2B参数规模下,实现和1.6B参数的GPT-4o Realtime相同的延迟。

我特意选了一个人声鼎沸的咖啡馆做测试。邻桌大叔在讲电话,服务员在报单,咖啡机轰鸣——这几乎是语音助手的"灾难现场"。

以前用其他语音助手,这种情况基本就废了:要么把邻桌的话当成指令执行,要么直接卡壳。

但Seeduplex的表现让我有点意外。

我正在跟豆包聊"周末去哪玩",旁边服务员突然喊"一杯拿铁不加糖"。豆包只是短暂停顿了一下,等服务员走开,无缝接回"周末去哪玩"的话题。

它不是简单"降噪",而是像人类一样,在声学层面就分辨出"哪句是冲我来的"。

官方数据显示,在复杂场景下,Seeduplex的误回复率和误打断率比半双工模型减少了一半。这不是冰冷的数字,而是真实场景中的体验质变。

说实话,这个能力让我有点兴奋。以前在公共场所用语音助手,总得找个安静角落,生怕被噪音打断。现在?随便在哪都能用。

这是我最想测试的场景。

跟AI语音助手聊天,最烦的就是——我刚说一半,它就开始回复了。明明我还在思考下一句怎么说,它已经迫不及待地插嘴。

我故意在对话中频繁卡壳:"um…我觉得…um…我的想法是…um…"

以前的语音助手,听到第一个停顿就开始回复。结果我说完"我觉得",它已经开始回答了,我后面的话全被截断。

Seeduplex呢?它安静地等我说完。

它的"动态判停"能力,能联合语音和语义特征,综合判断用户意图。面对思考犹豫,它会耐心倾听;在用户说完后,又能快速响应。抢话比例下降了40%。

这个体验真的有点离谱。以前跟AI说话,得像写文章一样,一句话说完才能停顿。现在?可以像跟真人聊天一样,边想边说,它会等我。

这个场景我测试了多次。

我让豆包给我讲一个故事,讲到一半,我突然喊"等一下"。

以前用其他语音助手,我得等它把当前这句话说完,才能打断。有时候喊好几遍"停",它还在自顾自地讲。

Seeduplex呢?我刚喊出"等一下",它立刻收声。

词级实时打断准确率达到97.3%,延迟只有320毫秒——这个数字是什么概念?真人对话的平均反应时间大约是200-300毫秒。Seeduplex已经接近真人水平。

我试了好几次,每次打断都成功。这种"我说停它就停"的感觉,真的有点像在跟真人对话。

这个场景是意外发现的。

我突发奇想,跟豆包玩起了飞花令——每人说一句带"月"字的诗,看谁先卡住。

以前用语音助手玩这种游戏,体验很差:我说完,等2秒,它回复,我再接。节奏完全断了。

Seeduplex呢?我说"床前明月光",它秒回"疑是地上霜"。我说"举头望明月",它接"低头思故乡"。一来一回,节奏快得像在跟真人对战。

对话流畅度MOS分(主观体验评分)提升了12%,整体通话满意度提升了8.34%。这些数字背后,是用户从"忍耐"到"享受"的质变。

玩了十几轮,我才意识到:这已经不是"跟AI对话"了,这是"跟真人聊天"的感觉。

我整理了一下当前主流全双工语音模型的对比数据:

模型: Google Astra | 延迟: 1.2秒 | 语言支持: 多语言 | 参数规模: 8B | 可用性: 实验室

模型: Amazon Alexa LSM | 延迟: 800ms | 语言支持: 多语言 | 参数规模: - | 可用性: 未公开

模型: OpenAI GPT-4o Realtime | 延迟: 320ms | 语言支持: 仅英文 | 参数规模: 1.6B | 可用性: API

模型: 字节Seeduplex | 延迟: 320ms | 语言支持: 中文优先 | 参数规模: 2B | 可用性: 亿级用户

关键发现:

这是全双工语音技术第一次实现商业规模化落地。从实验室走向大众市场,这个跨越比技术参数本身更有意义。

Seeduplex的发布,不只是字节一个产品的升级,而是整个AI语音交互行业的里程碑。

过去十年,语音助手一直被困在"半双工陷阱"里:你必须说完一整句话,它才开始处理;它一旦开口,就听不见你的任何声音;背景里的一句杂音,可能就让它"断片"。

这种"回合制问答",本质上是把人类自然对话切割成碎片。机械感由此而生。

Seeduplex的突破,在于重构了对话的"时间感"。它不再依赖"静音时长"判断对话节点,而是像人类一样,通过"声学特征+语义状态"双轨判断。

用一个比喻:以前的语音助手像"读稿机器",你必须按它的节奏来;Seeduplex像"即兴对话",你们可以互相抢话、互相等待、互相打断。

这才是语音交互该有的样子。

我试了一下,体验方式很简单:

不需要每句话都喊"豆包豆包",唤醒一次就能一直聊下去。

Seeduplex代号没有公开,但它的能力一点都不低调。

320毫秒延迟、97.3%打断准确率、40%抢话比例下降——每一条都是实打实的进步。关键是,这是全球首个亿级用户可用的全双工语音模型,不是实验室里的Demo。

我试了一下,真的有点离谱。以前跟AI语音助手聊天,总得小心翼翼,生怕说错话、怕被打断、怕噪音干扰。现在?可以像跟真人一样,边想边说,随时打断,在咖啡厅也能用。

这不是"锦上添花",这是"交互革命"。

当然,Seeduplex也不是完美的。目前只支持桃子音色,多语种混合识别还有优化空间。但它的进步速度,让我对AI语音的未来充满期待。

下次更新,我们再聊聊全双工语音在更多场景的应用可能性。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一深圳女工程师的高消费引争议!月入2.4万,房租7600、养狗2500

一深圳女工程师的高消费引争议!月入2.4万,房租7600、养狗2500

火山詩话
2026-07-01 09:45:59
巴西总统:感谢安帅没换下卡塞米罗,我和身边人都说把他换下

巴西总统:感谢安帅没换下卡塞米罗,我和身边人都说把他换下

懂球帝
2026-07-01 09:31:15
“吃了你们家7年,真的很舍不得” 广州博士生点外卖邀请老板娘拍毕业照,老板娘赴约晒合照

“吃了你们家7年,真的很舍不得” 广州博士生点外卖邀请老板娘拍毕业照,老板娘赴约晒合照

大风新闻
2026-07-01 11:36:11
挪威队主厨为了喂饱哈兰德有多拼,哈兰德每天要补充6000卡路里热量,进入淘汰赛后球队紧急订购食材

挪威队主厨为了喂饱哈兰德有多拼,哈兰德每天要补充6000卡路里热量,进入淘汰赛后球队紧急订购食材

极目新闻
2026-07-01 07:02:51
杭州宋城演员“小豆子”去世,年仅32岁,被称“第一美女”

杭州宋城演员“小豆子”去世,年仅32岁,被称“第一美女”

九方鱼论
2026-06-30 14:36:37
Shams:詹姆斯已告知湖人他将离队,他不会退役

Shams:詹姆斯已告知湖人他将离队,他不会退役

懂球帝
2026-07-01 00:28:05
曝Anthropic在Claude Code中嵌入隐蔽代码,无声标记中国用户路由信息

曝Anthropic在Claude Code中嵌入隐蔽代码,无声标记中国用户路由信息

西游日记
2026-07-01 07:53:27
湖人集体送别詹姆斯!魔术师天勾发声 东契奇等人称并肩作战是荣幸

湖人集体送别詹姆斯!魔术师天勾发声 东契奇等人称并肩作战是荣幸

林子说事
2026-07-01 08:17:13
董卓入京后,怎样“收拾”何太后的?史书上记载的场景残暴惊人!

董卓入京后,怎样“收拾”何太后的?史书上记载的场景残暴惊人!

青史卷中人
2026-07-01 01:12:11
57岁奥运冠军:宋凯去中国足协升官发财!疆超主教练睡队员家长

57岁奥运冠军:宋凯去中国足协升官发财!疆超主教练睡队员家长

念洲
2026-07-01 09:06:46
法国队内讧?曼城9000万巨星扭头+拒与主帅握手!他4场仅踢55分钟

法国队内讧?曼城9000万巨星扭头+拒与主帅握手!他4场仅踢55分钟

我爱英超
2026-07-01 10:39:20
82岁李谷一:两任丈夫接连离世,50岁女儿未婚成她此生最大遗憾

82岁李谷一:两任丈夫接连离世,50岁女儿未婚成她此生最大遗憾

飘飘然的娱乐汇
2026-07-01 10:05:06
死亡半区不死亡了!法国队预定决赛名额? 媒体人:提防美国队胡搞

死亡半区不死亡了!法国队预定决赛名额? 媒体人:提防美国队胡搞

风过乡
2026-07-01 08:09:33
詹姆斯离开湖人后续:授意经纪人接洽所有潜在下家 勇士领跑赔率

詹姆斯离开湖人后续:授意经纪人接洽所有潜在下家 勇士领跑赔率

罗说NBA
2026-07-01 04:50:27
世人都误解了:俄国人从来不善战,他们更擅长的是承受恐怖伤亡

世人都误解了:俄国人从来不善战,他们更擅长的是承受恐怖伤亡

李健政观察
2026-06-30 16:47:04
一三局领先全被逆转!王曼昱0-3佐藤瞳无缘美国大满贯16强!

一三局领先全被逆转!王曼昱0-3佐藤瞳无缘美国大满贯16强!

篮球资讯达人
2026-07-01 09:46:52
突发!恭喜威少爷!

突发!恭喜威少爷!

左右为篮
2026-07-01 10:54:14
3-0!2-0!世界杯狂欢:绝杀+碾压局 巨星闪耀 16强确定7席

3-0!2-0!世界杯狂欢:绝杀+碾压局 巨星闪耀 16强确定7席

叶青足球世界
2026-07-01 12:03:01
赵薇前夫被曝曾2天赌输1.87亿,再借9360万继续赌到输光为止

赵薇前夫被曝曾2天赌输1.87亿,再借9360万继续赌到输光为止

开开森森
2026-06-30 22:33:55
委内瑞拉地震后华人超市被哄抢,为何仍要援助救灾?

委内瑞拉地震后华人超市被哄抢,为何仍要援助救灾?

基本常识
2026-06-30 23:36:50
2026-07-01 13:00:49
AI效率笔记
AI效率笔记
专注AI工具测评与效率提升。
398文章数 12关注度
往期回顾 全部

科技要闻

美国放行,Anthropic两款顶级模型将恢复

头条要闻

日裔藤森庆子当选秘鲁总统 专家:她无法远离忽视中国

头条要闻

日裔藤森庆子当选秘鲁总统 专家:她无法远离忽视中国

体育要闻

卖球衣救子的门将,把德国扑出了世界杯

娱乐要闻

罗晋大孤山素颜照,秃顶白发引热议

财经要闻

新氧贷款:宣传年化15%,实际顶格24%

汽车要闻

交付持续攀升再破纪录 零跑6月全球交付93376台

态度原创

教育
本地
手机
游戏
公开课

教育要闻

中国民族大学招生就业工作处副处长孙洋介绍学校办学特色与优势专业。#高考高招

本地新闻

贵州小城的新目标:举办“村超”世界杯!

手机要闻

简评REDMI K90至尊版,卢伟冰这个定价诚意十足

像素成人游戏《45号列车》销量爆棚 简中玩家位居榜首

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版