网易首页 > 网易号 > 正文 申请入驻

从开源VibeVoice-ASR看语音模型的设计、数据、幻觉和未来

0
分享至

最近,微软开源了VibeVoice-ASR,我也第一时间进行了体验。首先,对微软团队开源这个模型表示感谢。尽管在测试过程中发现了一些问题,但任何开源工作都值得尊重。作为开源工作,我们没有任何理由要求太多,这些问题也都是可以解决的,况且微调代码也即将开源。并且从我粗浅的直觉和简陋的测试上得出的结论:如果可以从数据覆盖上进一步优化,这个模型应该还是有潜力的。在此,我想基于这个工作,聊一聊VibeVoice-ASR的优点与不足,并分享一些对模型设计和数据的思考。

多任务的模型设计

虽然模型命名为VibeVoice-ASR,但它并非单纯的语音转文字模型。VibeVoice-ASR集成了说话人日志、时间戳以及部分声音事件检测功能。

这样的多任务设计符合大模型时代的技术趋势,也契合未来的用户需求。如今,仅实现语音转录已远远不够。无论是底层模型还是上层应用,乃至用户对智能体验日益提升的期待,都要求我们从语音数据中提取更丰富的信息。用户对产品的追求不再停留在基础功能,而更多地转向情感价值与类人体验。


关注声音特性

先吐个槽,我非常反感各类PR文章的自夸,动辄宣称“世界第一”。(我能理解,毕竟要给投资人、客户看,也需要曝光度。)但这种风气很容易误导行业外的人。毕竟,包括我在内,99%的负责人今天做什么,取决于早上在自媒体上刷到了什么(借用别人的段子)。

我认为,声音在机器理解用户方面的价值被严重低估了。理解声音,是通往“世界模型”、理解世界不可或缺的一环。

遗憾的是,目前除了Gemini,我还没看到能与之比肩的系统。我也认为这是谷歌布局未来重要的一步。(不得不提一句,至于那些号称超越的,或许在某些测试集和指标上能实现超越,这一点我并不否认。)

VibeVoice-ASR模型其实让我有所期待。至少,它是开源模型中明确对声纹进行建模的,并且在我真实测试集(家庭录音,包括男性、女性、儿童)中,在区分度较大的场景下是可用的。

  • “建模声纹很难吗?”“是的。”

  • “声纹识别现在做得很好了吗?”“并没有。”

声纹作为声音的底层属性,与语音语义有很大不同。识别一个人的声纹,对人类来说也并非易事。我们觉得容易,大多是因为我们接触的声纹往往是“已注册”的。从模型实现来看,声纹的做法看似简单,但实际效果并不理想,原因有多方面:

极易受环境干扰

与ASR相比,声纹更易受声学环境干扰。训练数据的覆盖范围、环境噪声、信道差异,以及注册与使用条件的不一致,都会影响最终效果。

声纹具有时变性

声纹会随时间发生漂移,比如儿童的声音变化最快,不同儿童之间的声音区分也很困难,成人的声音也会因状态(如感冒、情绪)而改变。

声纹数据自动标注困难

从数据标注角度看,由于历史上声纹模型效果一般,再加上上述难点,导致自动化标注很难做到准确。

幻觉问题较为突出

在体验VibeVoice-ASR模型的过程中,我发现最明显的问题是幻觉。测试中,我注意到一个特别的现象:

数据中孩子的哭声极容易触发模型的幻觉。

最初我以为是数据过长(约30分钟)导致的,于是特意将哭声部分单独截取出来测试,但幻觉依然出现,比如下面的例子:


哭声语谱图


哭声幻觉识别结果

另外一条数据,中间在含糊不清的地方发生幻觉:


这背后最主要的原因,应该还是接下来要谈的数据覆盖问题。

长度真的那么重要吗?

对于文本大模型,长度等于上下文,上下文窗口的确很重要。但对于语音模型,特别是偏重转录的模型,在当前阶段,长度是否真的如此关键,我持保留态度。

VibeVoice-ASR提出的理由是:


首先,关于上下文断裂问题——纯音频的上下文真能解决这个问题吗?或许能部分缓解,但对多数场景来说,可能并非至关重要。文本层面的上下文或许已足以提升准确率。

其次,工程复杂度方面,文中提到的说话人日志优势我很认同,但这个和长度其实关系不是特别大,我认为更多的优势来自于识别+说话人的联合建模。短句说话人日志的确很困难,但几分钟的数据进行说话人相关的工作也没有太大问题。如果可以把效果做好,后续通过一个混淆矩阵进行相同说话人的聚类。如果长语音识别确实可以做的好,那么降低系统复杂度的优势肯定是有的。

综上所述,在当前条件尚不成熟的情况下,过度强调长度或许并不是最优先的。相比长度,我们更应关注模型的稳定性与准确性。当然,如果能处理更长的音频,那自然是更好的。

“垃圾”数据也有价值

从我测试中遇到的幻觉问题,结合当前主流数据清洗流程的做法,会发现一个现象:

人们常用多个模型交叉验证,筛选出“有用且正确”的数据。

什么是“有用且正确”的数据?如果一条数据包含文字,且多个模型识别结果一致,就被认为是有价值且标注正确的。那么,那些被过滤掉的数据,其价值又该如何看待?

事实上,它们的价值在今天更应被重视。原因如下:

幸存者偏差

这种方式筛选出的数据,都是以往模型基础上的“幸存者”,数据质量虽高,但对模型来说难度较低。换句话说,大量这类数据对模型能力的提升并无太大增益。如果模型只用这类数据训练,那么无论输入什么,哪怕是人耳都难以听清的语音,模型都可能用最大似然的方式“猜”一个最可能的结果,而不是“承认困难”。一个懂得“示弱”的模型,或许也有其价值。

垃圾”数据的价值

所谓“垃圾数据”,正是那些被自动标注流程过滤掉的数据,它们的价值应当被重新审视。比如我测试数据中的哭声片段,很可能会被清洗流程过滤掉。再加上这类声音重复性强,更容易导致模型产生幻觉。

在强化学习中,也应该加强对“坏”数据如何给予正确反馈的机制。

总结

非常高兴看到越来越多的开源工作,推动模型能力逐步提升。同时我们也应认识到,语音远非一个已被彻底解决的问题。无论是真实场景的数据表现,还是实际落地应用,都还有很长的路要走。随着AI技术的进步,市场对更优秀的语音交互、合成与理解的需求显著增加。真心希望有实力的公司能坚持投入,去做那些困难却正确的事。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
好教练!久尔杰维奇带中国U19半年赢8场:明年世青赛真有戏

好教练!久尔杰维奇带中国U19半年赢8场:明年世青赛真有戏

邱泽云
2026-02-06 15:47:20
伊斯兰另类政权:这个阿拉伯国家一边骂以色列,一边给它当防空盾

伊斯兰另类政权:这个阿拉伯国家一边骂以色列,一边给它当防空盾

范烽舍长
2026-02-04 12:13:43
中方话音刚落,巴基斯坦二话不说,击毙上百名残害中国人的凶手

中方话音刚落,巴基斯坦二话不说,击毙上百名残害中国人的凶手

晓岇就是我
2026-02-05 16:55:32
最强“鹰王”!杰伦约翰逊爆砍22分16篮板15助攻,比肩多位传奇!

最强“鹰王”!杰伦约翰逊爆砍22分16篮板15助攻,比肩多位传奇!

田先生篮球
2026-02-06 13:49:06
A股:今天,2月6日,行情很反常,释放了两个重要信息!

A股:今天,2月6日,行情很反常,释放了两个重要信息!

明心
2026-02-06 11:51:38
固始新娘身份被揭!同学曝猛料,婆家遭殃全员避雷!

固始新娘身份被揭!同学曝猛料,婆家遭殃全员避雷!

特约前排观众
2026-02-06 00:20:03
网友拆机发现知名品牌空气炸锅温度旋钮不能调节,商家回应:那个是“装饰品”

网友拆机发现知名品牌空气炸锅温度旋钮不能调节,商家回应:那个是“装饰品”

封面新闻
2026-02-04 13:17:05
干一行,爱一行,行行行!

干一行,爱一行,行行行!

贵圈真乱
2026-02-06 13:26:40
王健林25亿极限自救

王健林25亿极限自救

21世纪经济报道
2026-02-06 18:16:46
刚刚,突发利空!科技巨头,崩跌!

刚刚,突发利空!科技巨头,崩跌!

券商中国
2026-02-06 08:55:07
毛军发不再担任深圳大学校长

毛军发不再担任深圳大学校长

深圳晚报
2026-02-06 14:49:18
刚刚 | 奥运冠军首秀摔倒!赛后哭了!

刚刚 | 奥运冠军首秀摔倒!赛后哭了!

天津广播
2026-02-06 20:11:53
工信部发布新能源汽车强制性国标:将动力电池安全要求提升至“不起火、不爆炸”

工信部发布新能源汽车强制性国标:将动力电池安全要求提升至“不起火、不爆炸”

封面新闻
2026-02-04 17:24:12
第三国下场后,长和发布公告,中方反制就绪,巴拿马将付出代价

第三国下场后,长和发布公告,中方反制就绪,巴拿马将付出代价

似水流年忘我
2026-02-05 21:47:30
尺度惊艳,悉尼妹新片太过瘾了

尺度惊艳,悉尼妹新片太过瘾了

来看美剧
2026-02-06 20:47:55
1955年授衔,迟浩田自报“大尉”,中央不同意,最后得到什么军衔

1955年授衔,迟浩田自报“大尉”,中央不同意,最后得到什么军衔

小豫讲故事
2026-02-06 06:00:20
谁碰谁死,包括总统,这就是美国

谁碰谁死,包括总统,这就是美国

雪中风车
2026-02-06 12:34:39
陶琳:特斯拉中国AI训练中心已投入使用,算力可满足目前需求

陶琳:特斯拉中国AI训练中心已投入使用,算力可满足目前需求

IT之家
2026-02-06 19:24:06
1967年,梁兴初厉声质问副政委:邓华你也敢动?谁给你的胆子?

1967年,梁兴初厉声质问副政委:邓华你也敢动?谁给你的胆子?

鉴史录
2026-02-05 16:28:29
官宣前崩盘?祖马签约泰山突曝双变数,体检与授权书同时亮红灯

官宣前崩盘?祖马签约泰山突曝双变数,体检与授权书同时亮红灯

体坛小鹏
2026-02-06 15:06:58
2026-02-06 21:51:00
开源中国 incentive-icons
开源中国
每天为开发者推送最新技术资讯
7589文章数 34500关注度
往期回顾 全部

科技要闻

独角兽版图巨变:SpaceX奔万亿 中美差在哪

头条要闻

电动车行业"老三"冲刺上市 分股东2亿克扣员工社保3亿

头条要闻

电动车行业"老三"冲刺上市 分股东2亿克扣员工社保3亿

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜红毯好精彩,堪比婚礼现场

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

宝马"本命年"关键词:20款新车与"新世代"耐力赛

态度原创

游戏
教育
手机
家居
房产

小岛工作室10周年大动作!吉祥物LUDENS新形象

教育要闻

高考指挥棒,变了!

手机要闻

魅族Flyme AIOS新春版来了:一大波新功能 六款机型可升

家居要闻

现代轻奢 温馨治愈系

房产要闻

新春三亚置业,看过这个热盘再说!

无障碍浏览 进入关怀版