网易首页 > 新闻中心 > 新闻 > 正文

47M:语音判停模型TurnSense开源

0
分享至

(原标题:47M:语音判停模型TurnSense开源)

你的语音Agent又抢话了。

用户说"我想订那个……就是上次去过的那家……",话还没说完,AI已经兴冲冲回了一句"好的,请问您想订什么?"

"帮我查一下那个……"——一秒的停顿,AI拿着半句话就开始生成回复了。

更荒谬的是:用户咳嗽了一声,AI开始正经回答一个不存在的问题。用户清了下嗓子,AI说"好的,我来帮您处理"。旁边有人关了一下门,AI又开口了。

这些问题的根源不是你的大模型不够聪明,而是系统根本不知道什么时候该接话——更准确地说,系统分不清哪些声音是"话",哪些根本不是。

现有方案为什么不行

目前主流语音的判停逻辑是VAD + 静音阈值——检测到N毫秒没声音,就认为用户说完了。但这个方案有两个致命问题。

第一,它分不清停顿和说完。 人说话会思考、会犹豫,1秒的沉默不代表一句话结束。

第二,它分不清人声和噪声。 VAD检测的是"有没有声音活动",而不是"有没有语言意图"。咳嗽、叹气、清嗓子、甚至环境中的碰撞声,都可能被VAD标记为语音活动,经过ASR后产生幻觉文本,触发大模型生成一个莫名其妙的回复。在真实部署环境中,这类噪声误触发的频率远比你想象的高——特别是车载、开放办公、户外等场景。

行业开始转向模型判停——用深度学习模型判断用户是否说完。但现有方案存在一个三角困境:精度、成本、速度,最多满足两个。

如果你想要一个不依赖GPU、精度还能打、同时能拦住噪声的判停方案,目前没有选择。

TurnSense:不用GPU也能打,噪声一条不漏

今天,百融 Baiji Team 开源了 TurnSense——一个47M参数的语音判停模型,直接以语音为输入。

它回答一个问题:

用户这段语音,是说完了没说完、还是无需回复

三种输出,三种系统行为:

●      Complete → 立即响应。用户表达了完整的意图。

●      Incomplete → 继续等待。用户还在组织语言,只是停顿了。

●      Invalid → 静默忽略。咳嗽、叹气、清嗓子、打哈欠、环境碰撞声……一切不构成对话意图的声音,系统当它不存在。

这个三分类设计不是锦上添花,而是解决了一个工程上的关键痛点。传统方案中,非语义声音要经过VAD → ASR → 文本判断的完整链路才能被过滤(如果能被过滤的话)。TurnSense在语音层就直接拦截,不给下游任何误触发的机会。整条链路的噪声抑制从"末端补救"变成了"源头拦截"。

关于 Invalid 的边界:如果用户说了一声"嗯"作为回应,TurnSense怎么判?判断依据是这段语音是否携带需要AI响应的意图。纯粹的反馈性语气词("嗯"、"啊")在单独出现时归为Invalid,不会触发AI回复。如果"嗯"后面紧跟着内容("嗯,我想问一下……"),VAD会把它作为一整段语音送入,模型会根据整段判断为Incomplete或Complete。

在728条非语义声音测试中,TurnSense做到了Invalid类的precision 100%——咳嗽永远不会触发一次AI回复。零次。

 

判停是一个极窄的任务——输入是一段几秒的语音,输出是三选一的分类。它不需要世界知识,不需要长链推理,不需要理解上下文。

但"小模型做窄任务"不是新思路,Smart-Turn也只有8M,为什么F1只有70%?差距在哪?

两个方面。

第一是训练数据。 TurnSense使用了大规模中英文真实对话语音作为训练数据,覆盖了口语中大量的犹豫、停顿、重复、自我修正等现象。同时,训练集中包含了大量真实环境录制的非语义声音样本——各种咳嗽、叹气、环境噪声、设备杂音——让模型学会了区分"人在说话"和"只是有声音"。Smart-Turn的训练数据以朗读式语音为主,遇到真实口语场景和噪声环境泛化能力不足。

第二是模型容量的甜点。 8M太小,无法充分编码语音中的韵律模式和语义完整性特征。47M是团队经过多轮实验找到的平衡点——足够大到覆盖判停所需的全部信号(包括区分语义内容和非语义噪声的能力),又足够小到每个参数都在干活。

这不是一个靠灵感找到的魔法数字,是几十次对照实验的结果。

快速使用

接入路径: VAD检测到语音段结束 → 提取音频特征 → 送入TurnSense → 根据结果决定响应/等待/忽略。

注意这里和传统链路的关键区别:传统方案中,所有经过VAD的音频都会送入ASR,ASR的幻觉文本可能触发下游误响应。接入TurnSense后,Invalid的音频直接被丢弃,根本不会进入ASR环节,从源头切断噪声误触发链路,同时节省了ASR的算力开销。

因为TurnSense直接处理语音,它和ASR是并行关系。你可以在TurnSense做判停的同时让ASR开始转写,两者同时跑。TurnSense返回"Complete"时,ASR大概率也出结果了,整体响应延迟取两者最大值而非累加。TurnSense返回"Invalid"时,直接丢弃ASR结果,不浪费下游算力。

模型以标准ONNX格式提供(FP32 / INT8),不绑定任何训练框架。Python、C++、Java、Rust——你的技术栈是什么就用什么。INT8版本约50MB,一台普通云服务器就能跑生产流量,也能打包进车机、手机、IoT设备。

实际效果

我们将TurnSense接入一个开源语音Agent框架做了内部初步测试(100轮对话,涵盖闲聊、任务指令、多轮问答三类场景,测试环境包含正常室内和模拟车载噪声):

样本量不大,仅供参考方向性趋势,后续会放出更大规模的评测报告。但三个方向性的结论应该是稳的:误打断大幅减少;噪声误触发从11次降到0次,Invalid拦截能力在工程上验证了实验室指标;因为不再需要固定等500ms静音窗口,判停与ASR并行后实际响应反而更快。

噪声误触发归零这一点对特定场景的意义尤为突出:车载场景中路噪和乘客对话频繁;智能客服场景中用户的叹气和清嗓子是高频事件;智能音箱场景中电视声、孩子玩闹声随时存在。这些场景下,一次误触发就可能打断用户体验。

它不能做什么

不处理多轮上下文。 TurnSense只看当前这一段语音,不参考对话历史。大多数场景下单段音频的韵律和内容信息已经足够判断,但确实存在需要结合上下文才能判断的边界case。

中英文为主。 当前训练数据和评测以中英文为主,其他语种的效果尚未充分验证。

不替代VAD。 TurnSense是语义层判停,仍需前置的VAD做语音端点检测。VAD告诉你"这段声音停了",TurnSense告诉你"这段话说完了没"以及"这段声音是不是话"。

音频质量有下限。 极端噪声环境或严重失真的音频可能影响判断。正常通话质量和设备录音没问题。

关于百融 Baiji Team

百融Baiji Team 专注语音交互基础设施,让语音Agent在真实环境中真正好用。核心成员来自国内头部语音AI公司,有多年对话系统工程与研究经验。TurnSense是团队的首个开源项目,后续还会在语音交互的其他关键模块持续输出。

相关推荐
热点推荐
两个国家部委领导班子调整

两个国家部委领导班子调整

上观新闻
2026-05-13 12:38:09
告别!刘炜珊宣布退出国家队,曾击败蒯曼和陈熠,还曾搭档梁靖崑

告别!刘炜珊宣布退出国家队,曾击败蒯曼和陈熠,还曾搭档梁靖崑

老王大话体育
2026-05-14 00:55:39
重庆一大桥桥底崖壁上现佛头塑像,文旅部门:系现代塑像,不具备文物价值;雕刻者已找到,与重庆少年宫“小萝卜头”雕像作者系同一人

重庆一大桥桥底崖壁上现佛头塑像,文旅部门:系现代塑像,不具备文物价值;雕刻者已找到,与重庆少年宫“小萝卜头”雕像作者系同一人

三湘都市报
2026-05-13 21:54:13
东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

番外行
2026-03-31 08:28:28
新国标下的电动车乱象:电摩白菜价,电自成“奢侈品”

新国标下的电动车乱象:电摩白菜价,电自成“奢侈品”

老特有话说
2026-05-13 16:00:46
澳洲放羊大叔引爆AI编程革命!Claude Code急推goal模式,不干完不许停

澳洲放羊大叔引爆AI编程革命!Claude Code急推goal模式,不干完不许停

新智元
2026-05-13 18:31:06
3900 万!曼联要签下自己的罗德里,红魔真核彻底留不住了

3900 万!曼联要签下自己的罗德里,红魔真核彻底留不住了

奶盖熊本熊
2026-05-14 01:00:28
中国银行原副行长林景臻被提起公诉,官方披露:其私藏、阅看、寄递有严重政治问题的书籍;大搞权钱交易,非法收受巨额财物

中国银行原副行长林景臻被提起公诉,官方披露:其私藏、阅看、寄递有严重政治问题的书籍;大搞权钱交易,非法收受巨额财物

农视网
2026-05-13 10:52:59
韩国总统李在明会见何立峰

韩国总统李在明会见何立峰

每日经济新闻
2026-05-13 17:19:38
5千万挥霍一空后,沦落超市打工,不敢见人!马蓉现状太落魄

5千万挥霍一空后,沦落超市打工,不敢见人!马蓉现状太落魄

明天后天大后天
2026-05-13 11:56:55
江苏1106万退休人员养老金梯队:月领8000元,到底属于什么水平?

江苏1106万退休人员养老金梯队:月领8000元,到底属于什么水平?

三农老历
2026-05-13 17:07:22
东莞知名烧鹅店!刚上完TVB就宣布停业!

东莞知名烧鹅店!刚上完TVB就宣布停业!

科学发掘
2026-05-13 17:29:47
71.5%!历史性暴跌,以贷养贷的泡沫崩了

71.5%!历史性暴跌,以贷养贷的泡沫崩了

月满大江流
2026-04-16 13:54:38
美国特勤局警卫或随特朗普来华!他们能在中国境内随身带枪吗?

美国特勤局警卫或随特朗普来华!他们能在中国境内随身带枪吗?

儒雅随和老泰勒
2026-05-13 17:19:37
8胜1负,女单仅剩独苗,国羽多场险胜,附泰国公开赛14日赛程

8胜1负,女单仅剩独苗,国羽多场险胜,附泰国公开赛14日赛程

佑铭羽球
2026-05-14 02:25:19
博士肄业生把985院长拉下马:同济刚免职,又有三所高校被爆造假

博士肄业生把985院长拉下马:同济刚免职,又有三所高校被爆造假

妍妍教育日记
2026-05-13 09:55:04
格瓦迪奥尔:没想到瓜帅会让我首发;希望能争取更多出场时间

格瓦迪奥尔:没想到瓜帅会让我首发;希望能争取更多出场时间

懂球帝
2026-05-14 06:13:09
明朝开国猛将后裔连丧两婴,绝望中生下毛泽东,大字不识的八岁幼童为何能脱口作诗?

明朝开国猛将后裔连丧两婴,绝望中生下毛泽东,大字不识的八岁幼童为何能脱口作诗?

寄史言志
2026-05-12 17:57:29
因截流种棉花,7000万人的母亲河,就这样毁在一个超级大国手里!

因截流种棉花,7000万人的母亲河,就这样毁在一个超级大国手里!

抽象派大师
2026-05-07 00:22:34
导航怎么知道“红绿灯变化的”?你以为是黑科技,其实原理很简单

导航怎么知道“红绿灯变化的”?你以为是黑科技,其实原理很简单

Thurman在昆明
2026-05-11 14:19:39
2026-05-14 07:08:49

头条要闻

女子闪婚获千万房产99%份额闪离后起诉分割 法院判了

头条要闻

女子闪婚获千万房产99%份额闪离后起诉分割 法院判了

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

美国总统特朗普抵达北京

科技要闻

阿里年营收首破万亿,AI终于不再是画大饼

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

家居
房产
游戏
教育
数码

家居要闻

内在自叙,无域有方

房产要闻

卷疯了!最低杀到7字头!手握30万,海口楼市横着走!

曝《雷曼》重制版反馈积极 游戏或于今夏公布

教育要闻

家长就读,孩子免费修大学学分的社区大学?

数码要闻

徕芬智能卷发棒Styler发布,499元

无障碍浏览 进入关怀版
×