网易首页 > 网易号 > 正文 申请入驻

AI 语音爆发的这半年,一位「局中人」看到的赛道爆发逻辑

0
分享至

苹果 Siri 折戟,但越来越多的「AI Siri」拿到了融资。


作者|苏子华

编辑|靖宇

过去半年,「AI 语音」赛道正密集地获得融资。尤其引人注目的是,这些融资多为大额,并且投向早期团队。

比如,前不久 AI 语音应用 Wispr Flow 靠「默念输入」,完成了 3000 万美元的 A 轮融资,累计融资额已达 5600 万美元;语音模型公司 Cartesia 在 3 月份完成了 6400 万美元的 A 轮融资,累计融资 9100 万美元;AI 语音合成公司ElevenLabs 更是在 1 月份宣布完成 1.8 亿美元的 C 轮融资,估值超过 30 亿美元

与此同时,无论是 Meta、OpenAI、Google 等科技巨头,还是 MiniMax 等创业公司,都在密集发布自己的语音模型或语音产品。Siri 也被曝出或将被 ChatGPT 或 Claude 等模型接管,来跟上语音交互的进展。

这些消息无一例外都指向了 AI 语音的火爆。

为什么过去半年多以来,AI 语音领域会如此集中地爆发?

声智副总裁黄赟贺认为,语音对话从一个 App 中的功能模块,迅速进化为 AI 时代入口级别的存在,与大模型的加持有极大关系。

在智能音箱红极一时的年代,大部分我们熟知的智能音箱品牌都搭载了声智的远场声学交互技术,比如小爱同学、天猫精灵、小度音箱等等。而「小爱小爱」的唤醒词,实际上也是来自于声智

这家公司创办于 2016 年,一直在声学+ AI 交叉领域探索。然而,作为一家在幕后提供 AI 声学技术的公司,在大模型浪潮来临之后,果断选择下场投身开发自己的 C 端产品。毫无疑问,他们看到了这波「大模型+语音」浪潮里新的商业机会,其旗下的 AI 耳机目前出货量已接近 100 万套

前不久,极客公园与声智副总裁黄赟贺聊了聊 AI 语音市场的爆发逻辑、语音交互的「卡点」,以及它将如何影响我们的未来。

以下内容根据黄赟贺的讲述和声智的论文整理而成:

AI 语音的想象力,已经远在 Siri 之上|图片来源:网络

01

AI 语音为何现在爆发了?

最近两年,越来越多的 AI 语音初创团队获得大额融资,集中爆发。

其中,一个很重要的推动因素是,大模型让声音这项基础能力首次实现了「可编程化」

「可编程化」这个词,意味着将一种能力或者一个对象,通过清晰的接口和逻辑,变得可以被代码自由地调用、组合、修改和控制。过去,文字是可编程的,图像是可编程的,甚至视频也是可编程的(比如视频编辑软件)。

但声音更多的是一种「输入」或「输出」的介质,其内部的复杂结构和信息,很难被软件直接「编程」和「理解」。

传统的语音识别,更多是把声音转换成文字,然后对文字进行处理。

比如,之前在深圳、成都有很多做声音标注的团队,拿到语音之后,再人工转换成文字,打上不同的标签,比如各种特征、意向的标签。

大模型来了之后,打标签的这项工作可以交给大模型,它比大量的人工团队标得快和准。

以前做 NLP 的背后都是一堆苦逼的运营在那里打标签,让 AI 系统能够识别每个句子的意向。过去,语音的开发,每增加一个功能,都需要从头写代码,费时费力。比如,想让智能音箱支持「点外卖」,得单独开发一套语音识别和语义逻辑,成本高、周期长。

而现在 AI 大模型可以解决了。

更重要的,依靠大模型对多模态数据的深度理解能力,对声学信号的更细致解析,使得声音本身携带的除了文字信息之外的更多信息,开始被 AI 系统直接捕捉、理解和「编程」。

这种可编程化,意味着 AI 可以像处理数据一样处理声音。它可以分析声音的频率、振幅、波形,提取出情绪特征、识别不同的声源、声源距离、甚至预测你的意图。

这时,声音包含的不再仅仅是「你说了什么」,更是「你如何说」、「你在哪里说」、「谁在说」以及「你说了之后希望发生什么」。

由此,声音也成为了真正的交互引擎。

02

真正的语音交互,不是「Voice」而是「Sound」

其实,很多人以为,语音交互就是「Voice」(语音)。但其实 Voice 这个词是一个狭窄概念。真正的语音交互,核心不是「Voice」,而是「Sound」(声音)。Sound 里面包含了 Voice。

具体来说,「Sound」包含了更丰富的元素:语调、音色、节奏、情绪,更重要的是环境音。环境音里面可能包含了环境中的各种非语音信息,比如背景音乐、环境噪音(风声、雨声、车声)、物体发出的声音(开门声、打字声)、以及人类语音中包含的非语义信息(语调、语速、音色、语气词、叹息声、笑声、哭声等)。

比如说,你咳嗽的时候,跟 AI 说话,它可能会识别出咳嗽,然后跟你说多喝水;比如,你在咖啡馆说,「帮我找个安静的地方」,AI 不仅要理解你的指令,还要从背景音中判断出你当前的环境嘈杂,从而推荐附近的图书馆。

当我说「下一代对话交互的入口并非『Voice』,而是『Sound』」时,我指的是 AI 系统将不再仅仅依赖于识别你说的「词」,而是能够全面感知和理解你所处环境的「声学场景」中的所有关键元素。

只有当 AI 能够全面感知并解析「Sound」中包含的这些多维度信息时,它才能真正理解用户的深层需求,提供更精准、更个性化、更富有情感的交互。这才是真正的「语音交互」,它不仅仅是「听懂」字面意思,更是「听懂」你的「言外之意」和「心声」。

03

语音交互的「卡点」,大厂烧钱也没用

尽管大模型带来了语音交互的巨大飞跃,但语音交互当下依然存在一个核心的「卡点」,而这个卡点根植于物理学,具体来说,就是声学。

我们常说「听清、听懂、会说」。「听懂」和「会说」的能力,正在被大模型以前所未有的速度提升。但「听清」这个最基础的环节,却受到物理层面的制约。如果 AI 听不清你的指令,即便它能「听懂」再复杂的语义,能「会说」再动听的话语,那也都是空中楼阁。

比如说当下最热门的具身智能,现在很多机器人都是电驱动的,那么它带来几个大问题,一方面是电路的噪声本身就很大,另一方面是关节噪声,还有就是很多机器人是金属材质,厚厚的,声音在穿透时会大幅衰减。

所以,机器人动起来的时候,噪声很大,尤其在室外,更难听清楚人的指令。要么大声喊,或者拿麦克风喊。因此,现在很多机器人都要靠遥控器来控制。

当下最先进的具身智能机器人仍然依赖于遥控器来操控|图片来源:网络

这方面,其实就需要对声学层面的突破,比如说环境噪声的抑制,比如电路底噪的抑制,还有啸叫的抑制、混响回响的抑制等等。

而这些就是物理学科的逻辑,它需要数据样本,需要 know how 的壁垒,不仅是技术问题,而是时间的问题,需要时间去采集声音、做训练。

这不是烧钱能解决的。

让 AI 准确地「听清」用户的指令,依然是一个世界级的难题。而声学相关的人才很少,所以像谷歌、微软、苹果经常会收购声学技术的初创公司,几乎只要出来一家就会收购他们。

大家都明白,要构建真正的下一代人机交互系统,拥有核心的声学能力是基石。

04

语音交互的下一站,是实现「共情」

现在很多 AI 应用的日活、留存不高,有个很大的原因就是普通人本身是不会提问的,让人向大模型提问,这本身就是一个非常高的交互门槛。

好的提问还需要学识、表达等基础,所以停留在文字层面的问答,本身就是一种门槛限制。

而语音带来的一种可能性是,它正在开启一个全新的阶段——人机交互的「共情模式」。

如果把语音交互比作一个「UI 界面」,那这个界面会长什么样?我们可以做个推演,它的构成要素可能会有:

情绪识别:AI 通过分析语调、音量、语速,判断用户的情感状态。比如,你的声音颤抖,AI 可能推测你在紧张或伤心。 意图理解:不仅听懂你说了什么,还要明白你想做什么。比如,你说「播放音乐」,AI 会根据你的情绪,决定是放摇滚还是古典。 声纹识别:通过独一无二的音声波特征,区分不同用户。比如,家里的智能音箱能自动切换到「孩子模式」模式,只为孩子的声音提供安全的回应。 情绪生成:AI 的回应需要带有情感化的表达。比如,用温暖的语气说「别担心,我来帮你解决」,而不是机械的「好的,正在处理」。

这些要素的背后,是 AI 从「功能导向」到「情感导向」的转变,AI 会与人实现共情。这种交互,能显著提升长时间交互的质量和亲密感。

不仅如此,从狭义的「Voice」拓展到广义的「Sound」,当 AI 能接收到的不仅仅是用户的指令,而是整个物理世界的实时反馈时,我们可以去构建一个「声学世界模型」。

这个「声学世界模型」可以理解声音在物理世界中产生、传播和交互的根本规律,它不仅要「听清」和「听懂」,更要具备「声学常识」和「声学推理」的能力:它能从一声闷响中分辨出是书本落地还是箱子倒塌;能通过回声判断出房间的大小与空旷程度;更能理解「脚步声由远及近」背后所蕴含的物理运动逻辑。

未来,当这样一个声学世界模型与视觉、语言大模型深度融合时,具身智能机器人将不再「失聪」和冰冷。这也是我们正在做的。

注:欢迎 AI、Voice Agent 相关创业者来稿,以及添加本文作者交流。

*头图来源:视觉中国

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

最近,多家机构发布了 AI 模拟高考成绩,个别大模型在数学、理综等科目中取得惊人成绩,已接近清北录取线。这一现象不仅展现了技术进步,也引发了关于教育、智能与未来人才的新一轮思考。

AI 能力的提升到底意味着什么?它只是一次考试现象,还是更深层的信号?普通人如何理解和应对这些变化?

今晚 20:00,极客公园视频号直播间

张鹏 × 潘乱 × 张一甲

一起从 AI 高考成绩出发,聊聊教育、技术与人的新关系。

蒸发了 545 亿美元!特斯拉股价大跳水,约合人民币 3905 亿元。

点赞关注极客公园视频号,

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这很科学:89%的人幻想过同时和多人发生性行为,算精神出轨吗?

这很科学:89%的人幻想过同时和多人发生性行为,算精神出轨吗?

宇宙时空
2026-05-26 18:20:10
上海滩大佬深谋远虑,送幼子奔赴延安,晚年得以安稳善终

上海滩大佬深谋远虑,送幼子奔赴延安,晚年得以安稳善终

唠叨说历史
2026-05-25 14:18:49
大佬排场 38岁梅西乘私人飞机抵达训练营:可参加首战 独住一间房

大佬排场 38岁梅西乘私人飞机抵达训练营:可参加首战 独住一间房

风过乡
2026-06-01 12:18:41
瑞典大满贯海报出炉!莫雷加德C位,孙颖莎成国乒独苗,王楚钦无缘

瑞典大满贯海报出炉!莫雷加德C位,孙颖莎成国乒独苗,王楚钦无缘

好乒乓
2026-06-01 19:06:15
难以置信!00后大专求职要5500双休8小时,被网友吐槽“太狂了”

难以置信!00后大专求职要5500双休8小时,被网友吐槽“太狂了”

火山詩话
2026-06-01 11:29:01
倪妮成都南门拍戏被偶遇,短发刚毅美丽!

倪妮成都南门拍戏被偶遇,短发刚毅美丽!

白宸侃片
2026-06-01 14:43:15
大雨、雷暴大风!江苏天气将突变!

大雨、雷暴大风!江苏天气将突变!

江南晚报
2026-06-02 02:44:46
大连遭遇历史同期最强降雨  市住建局已启动房屋漏雨专项整治方案

大连遭遇历史同期最强降雨 市住建局已启动房屋漏雨专项整治方案

半岛晨报
2026-06-01 17:55:52
皇马复仇者联盟集结!队长耶罗归来,23年恩怨再度对峙弗洛伦蒂诺

皇马复仇者联盟集结!队长耶罗归来,23年恩怨再度对峙弗洛伦蒂诺

穆里尼奥主义者
2026-06-01 17:16:42
岛内最新民调,“永远维持现状”人数有惊人变化,韩国瑜不装了

岛内最新民调,“永远维持现状”人数有惊人变化,韩国瑜不装了

潋滟晴方DAY
2026-06-01 12:14:29
元宇宙,为什么没人提了?

元宇宙,为什么没人提了?

快刀财经
2026-06-01 22:26:43
陈赓下令击毙国家副主席之子,毛主席得知后:交由龙云亲自处理

陈赓下令击毙国家副主席之子,毛主席得知后:交由龙云亲自处理

磊子讲史
2026-06-01 19:25:39
情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

新欧洲
2026-04-21 19:37:05
上海交大研究:早上睡懒觉的老人,用不了多久,身体或有5变化

上海交大研究:早上睡懒觉的老人,用不了多久,身体或有5变化

宝哥精彩赛事
2026-06-01 18:55:02
驱蚊界“灭霸”!方圆几米的蚊子,自动落网,灭蚊率高达99%

驱蚊界“灭霸”!方圆几米的蚊子,自动落网,灭蚊率高达99%

十点读书
2026-06-01 19:24:53
总决赛揭幕!菲律宾成赢家?崛起时代!中国男篮该醒了?

总决赛揭幕!菲律宾成赢家?崛起时代!中国男篮该醒了?

篮球盛世
2026-06-01 19:27:46
2026法网第10日:四强争夺战开启,丰塞卡夜场大战门希克

2026法网第10日:四强争夺战开启,丰塞卡夜场大战门希克

全网球APP
2026-06-01 21:23:32
美联储换狠人!3万亿抽血,美元推倒重来,全球变天

美联储换狠人!3万亿抽血,美元推倒重来,全球变天

流苏晚晴
2026-06-01 18:14:59
厦大“精日女”田佳良:高调辱华,被退学后不悔改,今已销声匿迹

厦大“精日女”田佳良:高调辱华,被退学后不悔改,今已销声匿迹

元哥说历史
2026-05-19 06:00:20
股价重挫90%,一夜两家A股公司被立案,近3万股民受波及

股价重挫90%,一夜两家A股公司被立案,近3万股民受波及

21世纪经济报道
2026-06-01 20:20:04
2026-06-02 05:00:49
极客公园
极客公园
让最棒的创新成为头条
12114文章数 78892关注度
往期回顾 全部

科技要闻

黄仁勋演讲实录|40年来PC首次重设计!

头条要闻

伊朗计划彻底封锁霍尔木兹海峡 特朗普回应

头条要闻

伊朗计划彻底封锁霍尔木兹海峡 特朗普回应

体育要闻

杰威:如果我没受伤,我们能击败马刺

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

宇树过会,杭州赢麻了

汽车要闻

奇瑞集团5月销量24.8万辆 同比增长20.5% 出口18.2万辆再创新高

态度原创

数码
旅游
教育
时尚
公开课

数码要闻

惠普推OmniDesk迷你主机:配英特尔新U支持AI加速

旅游要闻

世界旅游城市联合会“会员之家”在京揭牌

教育要闻

我给她钱 换来的不是感激 而是她的谩骂

夏天裤子不用多买,阔腿裤一整个夏天都能穿,日常出行好打理

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版