网易首页 > 网易号 > 正文 申请入驻

我试了一下豆包的全双工语音,这些场景真的有点离谱

0
分享至

先说结论从"对讲机"到"真电话":全双工到底牛在哪?技术上是怎么做到的?•听流:持续监听你的声音,提取语义•说流:根据语义生成回复,同时播放实测场景1:嘈杂咖啡厅,它真的能"听懂谁在跟它说话"实测场景2:思考停顿,它终于不抢话了实测场景3:实时打断,反应速度快到有点吓人实测场景4:飞花令对战,高频互动也能扛住技术对比:字节vs OpenAI,谁赢了?1延迟持平:Seeduplex的320ms延迟,和OpenAI GPT-4o Realtime完全一致2中文优先:GPT-4o Realtime只支持英文,Seeduplex首次在中文场景落地全双工3规模化落地:其他模型要么在实验室,要么只开放API,Seeduplex已经在豆包App全量上线,日活超1.45亿行业意义:语音交互进入"实时流"时代如何体验?1更新豆包App至最新版本2点击对话框内的"打电话"按钮3选择桃子音色(目前只有这个音色支持全双工)4开始对话——一次唤醒,持续聊天写在最后

4月9日,字节跳动发布了原生全双工语音大模型Seeduplex,已在豆包App全量上线。

这不是一次普通的语音模型迭代。这是全球首个亿级用户可用的全双工语音模型,标志着AI语音交互从"回合制"正式迈入"实时流"时代。

关键是:延迟只有320毫秒,和OpenAI的GPT-4o Realtime持平,但支持中文。

我第一时间试了一下,说实话,有点被震撼到。

先说个概念:什么是全双工?

以前的AI语音助手,都是"半双工"——你说话时它听,它说话时你等。就像对讲机,按住说话,松开听对方回复。

全双工是什么?就像真正的电话——双方可以同时说话,你可以随时打断它,它也能在你说话时插话。

传统半双工语音助手的延迟普遍超过2秒,你需要说完一整句话,等它处理,再等它回复。这种"回合制"交互,本质上把人类自然对话切割成了碎片。

好家伙,这个区别有多大?打个比方:

半双工= 对讲机:说完按按钮,等对方回复
全双工= 真电话:边听边说,随时打断

Seeduplex的核心突破,就是让AI语音从"对讲机"进化成了"真电话"。

我翻了十几篇技术资料,发现Seeduplex用的是"双流并行"架构。

以前的语音助手,处理流程是这样的:你说话 → 语音识别(ASR) → 大模型理解(LLM) → 语音合成(TTS) → 播放。每一步都要等上一步完成,延迟就是这么来的。

Seeduplex呢?它把"听"和"说"分成两条并行流水线:

两条流水线同时跑,互不等待。这就是"边听边说"的技术本质。

用一个类比:以前的语音助手像"接力赛",一棒接一棒;Seeduplex像"双轨铁路",两列火车同时跑。

这个架构的代价是计算量翻倍,但字节通过"共享KV-Cache"技术,把计算量降低了27%。这就是为什么它能在2B参数规模下,实现和1.6B参数的GPT-4o Realtime相同的延迟。

我特意选了一个人声鼎沸的咖啡馆做测试。邻桌大叔在讲电话,服务员在报单,咖啡机轰鸣——这几乎是语音助手的"灾难现场"。

以前用其他语音助手,这种情况基本就废了:要么把邻桌的话当成指令执行,要么直接卡壳。

但Seeduplex的表现让我有点意外。

我正在跟豆包聊"周末去哪玩",旁边服务员突然喊"一杯拿铁不加糖"。豆包只是短暂停顿了一下,等服务员走开,无缝接回"周末去哪玩"的话题。

它不是简单"降噪",而是像人类一样,在声学层面就分辨出"哪句是冲我来的"。

官方数据显示,在复杂场景下,Seeduplex的误回复率和误打断率比半双工模型减少了一半。这不是冰冷的数字,而是真实场景中的体验质变。

说实话,这个能力让我有点兴奋。以前在公共场所用语音助手,总得找个安静角落,生怕被噪音打断。现在?随便在哪都能用。

这是我最想测试的场景。

跟AI语音助手聊天,最烦的就是——我刚说一半,它就开始回复了。明明我还在思考下一句怎么说,它已经迫不及待地插嘴。

我故意在对话中频繁卡壳:"um…我觉得…um…我的想法是…um…"

以前的语音助手,听到第一个停顿就开始回复。结果我说完"我觉得",它已经开始回答了,我后面的话全被截断。

Seeduplex呢?它安静地等我说完。

它的"动态判停"能力,能联合语音和语义特征,综合判断用户意图。面对思考犹豫,它会耐心倾听;在用户说完后,又能快速响应。抢话比例下降了40%。

这个体验真的有点离谱。以前跟AI说话,得像写文章一样,一句话说完才能停顿。现在?可以像跟真人聊天一样,边想边说,它会等我。

这个场景我测试了多次。

我让豆包给我讲一个故事,讲到一半,我突然喊"等一下"。

以前用其他语音助手,我得等它把当前这句话说完,才能打断。有时候喊好几遍"停",它还在自顾自地讲。

Seeduplex呢?我刚喊出"等一下",它立刻收声。

词级实时打断准确率达到97.3%,延迟只有320毫秒——这个数字是什么概念?真人对话的平均反应时间大约是200-300毫秒。Seeduplex已经接近真人水平。

我试了好几次,每次打断都成功。这种"我说停它就停"的感觉,真的有点像在跟真人对话。

这个场景是意外发现的。

我突发奇想,跟豆包玩起了飞花令——每人说一句带"月"字的诗,看谁先卡住。

以前用语音助手玩这种游戏,体验很差:我说完,等2秒,它回复,我再接。节奏完全断了。

Seeduplex呢?我说"床前明月光",它秒回"疑是地上霜"。我说"举头望明月",它接"低头思故乡"。一来一回,节奏快得像在跟真人对战。

对话流畅度MOS分(主观体验评分)提升了12%,整体通话满意度提升了8.34%。这些数字背后,是用户从"忍耐"到"享受"的质变。

玩了十几轮,我才意识到:这已经不是"跟AI对话"了,这是"跟真人聊天"的感觉。

我整理了一下当前主流全双工语音模型的对比数据:

模型: Google Astra | 延迟: 1.2秒 | 语言支持: 多语言 | 参数规模: 8B | 可用性: 实验室

模型: Amazon Alexa LSM | 延迟: 800ms | 语言支持: 多语言 | 参数规模: - | 可用性: 未公开

模型: OpenAI GPT-4o Realtime | 延迟: 320ms | 语言支持: 仅英文 | 参数规模: 1.6B | 可用性: API

模型: 字节Seeduplex | 延迟: 320ms | 语言支持: 中文优先 | 参数规模: 2B | 可用性: 亿级用户

关键发现:

这是全双工语音技术第一次实现商业规模化落地。从实验室走向大众市场,这个跨越比技术参数本身更有意义。

Seeduplex的发布,不只是字节一个产品的升级,而是整个AI语音交互行业的里程碑。

过去十年,语音助手一直被困在"半双工陷阱"里:你必须说完一整句话,它才开始处理;它一旦开口,就听不见你的任何声音;背景里的一句杂音,可能就让它"断片"。

这种"回合制问答",本质上是把人类自然对话切割成碎片。机械感由此而生。

Seeduplex的突破,在于重构了对话的"时间感"。它不再依赖"静音时长"判断对话节点,而是像人类一样,通过"声学特征+语义状态"双轨判断。

用一个比喻:以前的语音助手像"读稿机器",你必须按它的节奏来;Seeduplex像"即兴对话",你们可以互相抢话、互相等待、互相打断。

这才是语音交互该有的样子。

我试了一下,体验方式很简单:

不需要每句话都喊"豆包豆包",唤醒一次就能一直聊下去。

Seeduplex代号没有公开,但它的能力一点都不低调。

320毫秒延迟、97.3%打断准确率、40%抢话比例下降——每一条都是实打实的进步。关键是,这是全球首个亿级用户可用的全双工语音模型,不是实验室里的Demo。

我试了一下,真的有点离谱。以前跟AI语音助手聊天,总得小心翼翼,生怕说错话、怕被打断、怕噪音干扰。现在?可以像跟真人一样,边想边说,随时打断,在咖啡厅也能用。

这不是"锦上添花",这是"交互革命"。

当然,Seeduplex也不是完美的。目前只支持桃子音色,多语种混合识别还有优化空间。但它的进步速度,让我对AI语音的未来充满期待。

下次更新,我们再聊聊全双工语音在更多场景的应用可能性。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曼联有意皇马卡塞米罗接班人!或引发连锁交易,恐因此无缘安德森

曼联有意皇马卡塞米罗接班人!或引发连锁交易,恐因此无缘安德森

罗米的曼联博客
2026-04-21 12:20:42
空军全军覆没?伊朗突亮地下底牌!美以傻眼了,就这样被骗数亿

空军全军覆没?伊朗突亮地下底牌!美以傻眼了,就这样被骗数亿

面包夹知识
2026-04-20 17:08:30
郭德纲发文,德云社再变动,释放3个强烈信号,岳云鹏地位又变了

郭德纲发文,德云社再变动,释放3个强烈信号,岳云鹏地位又变了

阿纂看事
2026-04-20 16:35:53
斯诺克世锦赛!4月21最新赛程公布,赵心童PK丁俊晖,吴宜泽晋级

斯诺克世锦赛!4月21最新赛程公布,赵心童PK丁俊晖,吴宜泽晋级

曹说体育
2026-04-21 11:59:59
网购完剩下的“快递气柱袋”都能拿来干嘛?网友的点子,绝了

网购完剩下的“快递气柱袋”都能拿来干嘛?网友的点子,绝了

美家指南
2026-04-20 16:05:59
梁家辉五次封帝,他与梁朝伟究竟谁是香港演技第一?

梁家辉五次封帝,他与梁朝伟究竟谁是香港演技第一?

手工制作阿歼
2026-04-21 00:38:06
劳伦斯11大奖项揭晓:网球包揽男女最佳!巴黎获年度团队 中国0奖

劳伦斯11大奖项揭晓:网球包揽男女最佳!巴黎获年度团队 中国0奖

我爱英超
2026-04-21 06:25:56
阳光美女,身材真好

阳光美女,身材真好

蓝色海洋009
2026-04-18 08:59:43
保加利亚亲俄候选人赢得议会选举,另一个欧尔班来临?

保加利亚亲俄候选人赢得议会选举,另一个欧尔班来临?

山河路口
2026-04-20 20:38:41
比赛今晚开打,海港却又遭一个致命暴击,取胜重庆铜梁龙基本没戏

比赛今晚开打,海港却又遭一个致命暴击,取胜重庆铜梁龙基本没戏

零度眼看球
2026-04-21 06:34:05
特朗普称伊朗将进行谈判

特朗普称伊朗将进行谈判

界面新闻
2026-04-21 07:41:12
罕见!7.7级地震席卷半个日本,日网民恐慌:恳请强大中国救我

罕见!7.7级地震席卷半个日本,日网民恐慌:恳请强大中国救我

丁鸊惊悚影视解说
2026-04-21 10:55:36
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
用户买20TB+硬盘还在质保期坏了 东芝拒免费换新:我们愿原价退款

用户买20TB+硬盘还在质保期坏了 东芝拒免费换新:我们愿原价退款

快科技
2026-04-20 11:23:09
印度加快推进苹果反垄断案 罚款或达380亿美元

印度加快推进苹果反垄断案 罚款或达380亿美元

财联社
2026-04-20 20:53:05
全力争胜!广东迎来新援首秀,萨姆纳回归助阵

全力争胜!广东迎来新援首秀,萨姆纳回归助阵

林子说事
2026-04-21 10:39:48
震惊!济南一国企总工的优质男,将未接种新冠疫苗列为择偶硬条件

震惊!济南一国企总工的优质男,将未接种新冠疫苗列为择偶硬条件

火山詩话
2026-04-21 08:54:26
山东乳山银滩“195平米复式房”1万元起拍,已有多人竞价,拍卖公司:产证面积97.94平米,另有赠送面积,非法拍可随时过户

山东乳山银滩“195平米复式房”1万元起拍,已有多人竞价,拍卖公司:产证面积97.94平米,另有赠送面积,非法拍可随时过户

极目新闻
2026-04-19 14:06:31
皇马最贵球员:每分钟45000欧元!

皇马最贵球员:每分钟45000欧元!

绿茵情报局
2026-04-20 23:49:21
歼10直飞伊朗,美以都没敢拦!谁也没想到,背后藏着一个天大的局

歼10直飞伊朗,美以都没敢拦!谁也没想到,背后藏着一个天大的局

寻墨阁
2026-04-20 18:51:46
2026-04-21 12:44:49
AI效率笔记
AI效率笔记
专注AI工具测评与效率提升。
393文章数 10关注度
往期回顾 全部

科技要闻

重磅官宣:库克卸任,特努斯接任苹果CEO

头条要闻

特朗普公开对伊开战真正原因:不是因为以色列

头条要闻

特朗普公开对伊开战真正原因:不是因为以色列

体育要闻

“被优化”8年后,国乒方博决定换一条路重新上场

娱乐要闻

周润发时隔16年再卖楼,变现数亿资产

财经要闻

减速机订单已排到明年!

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

游戏
手机
艺术
旅游
本地

《GTA6》被指将“毁掉”游戏界!知名记者痛心揭秘

手机要闻

一加Ace 6至尊版手机官宣首发《逆战:未来》165帧+精致画质

艺术要闻

任伯年写竹,真带劲

旅游要闻

一个全球知名IP的在地蝶变:上海迪士尼破土动工15周年

本地新闻

春色满城关不住|白鹃梅浪漫盛放,吴山藏了一片四月雪

无障碍浏览 进入关怀版