网易首页 > 网易号 > 正文 申请入驻

让 AI 开口「像人」:最难的不是智能,是「嗓音」

0
分享至

2025 年过了大半几乎可以确定今年 AI 最热的赛道之一就是 AI 陪伴类的硬件

AI 擅长情感陪伴,我们早就从那些火爆的陪伴类 App 里领教过了。今年 AI 陪伴类的硬件热潮背后,其实更是 AI 语音技术的迅速成熟。

今年,你是不是也接到过 AI 销售的电话?从过去僵硬的机械音,AI 销售的推销目前已经到了几乎完全自然的语音对话。NotebookLM 火了一整年,也催生了一堆 AI 播客产品。AI 口语陪练 App 正在大把赚钱,更不用提 AI 虚拟伙伴和虚拟主播。

其实,这些具体应用的背后,都是一个新的赛道:Voice Agent(语音智能体)正在快速发展的后果。从幕后到台前,"Voice Agent" 正在开启大规模渗透,也因此催生了一批备受资本青睐的初创公司。

这一波渗透浪潮,让人们直观地感受到 AI 语音的「可用性」——它不再是遥不可及的未来技术,而是已经能创造商业价值的工具。但当行业试图将这些 Voice Agent 从早期尝鲜,推向大规模、高标准的商业场景时,问题也迎面而来:AI 语音系统已经到达可用的地步,然而这并不等于技术已经稳定好用。

想要实现一个好的 Voice Agent,大模型的「智商」只是底座。在交互的临门一脚,也就是「嗓音」层面,延迟情商拟人度)、个性化声音质感流利度,每一样都不能或缺。行业实践早已证明,超过 1 秒的延迟就会打断对话节奏;而机械的播报,比如无法正确读出网址、邮箱或日期,则会瞬间暴露 AI 的「非人感」,这在专业的 B 端场景中是致命的。

这些细节体验,每一样都可能带来客户的大幅增加或流失。

Voice Agent 赛道正在爆发,但它迫切需要一个能让对话真正「流动起来」的底层引擎,一个能撑起下一代交互体验的 TTS 模型。竞争的焦点,已经从 LLM 的「大脑」,延伸到了 TTS 的「嗓音」。谁掌握嗓音,谁就掌握着下一代 AI 商业化的钥匙。

而 10 月 30 日 MiniMax 发布的 Speech 2.6 模型,似乎正是一个专为解决这些痛点而来的答案。

01

Voice AgentAI 时代的交互界面

那么,到底什么是 Voice Agent?

简单来说,它是一个「能说话的智能体」——用户开口说话,它理解、回应、执行,一切都像在和人交谈。

和文本交互相比,语音的优势是压倒性的:它更自然,也更符合人类本能;比文字更快,也更适合即时沟通;同时语音更具情感温度,也更容易与人建立连接。

许多早期的 AI 产品早已证明了这一点。比如 AI 女友应用 Dolores 的开发者就发现,平台上 70% 的收入都来自于语音的购买。开发者曾经感叹道:「人们真的会为那几句逼真的『我爱你』付费。」

而对于企业而言,Voice Agent 意味着「成本更低、速度更快、更可靠的服务」,能让企业实现全天候待命:它们是 24/7 在线的银行、保险、物流 AI 客服;是汽车里帮你导航和控制空调的智能助手;是医疗场景中帮助医生自动生成病例的记录员……



语音本身就有天然优势,而 Voice Agent 的爆发,更来自底层技术的突破。

自从 2023 年开始,TTS 技术被广泛运用在配音、数字分身、语音助手等方向,并开始出现爆发式的增长,可用性大幅提高。这背后是模型架构的革新,尤其是基于 AR Transformer 等新架构的出现,让语音合成的自然度和表现力达到了新的高度。

硅谷顶级风投 a16z 近期发文,表示 Voice Agent 正在成为「AI 时代的交互界面」和「下一代 SaaS 入口」。

一个完整的 Voice Agent 交互中,通常有这样几个模块:

语音识别 (ASR):首先,ASR 模块负责「倾听」,将用户的语音转换成文本。

大语言模型 (LLM):接着,LLM 作为「大脑」,理解这些文本的意图,思考并生成回应的文本。

语音合成 (TTS):最后,TTS 模块(Text-to-Speech)作为「嗓音」,将 LLM 生成的文本答案,转换成我们能听到的、自然的语音。

如今,语音识别的准确率已经非常高,而大模型的差距正在缩小,真正的竞争已转向交互的「最后一公里」——那副负责「开口说话」的嗓音,也就是 TTS 模型。TTS 是交互的最后一环,直接决定了用户的主观体验。

一个普遍的误解是,TTS 只要「清晰可闻」就足够了。但在真实的商业场景中,这远远不够。决定一个 Voice Agent 成败的,从来不是单纯的清晰度,而是交互是否自然可信顺畅

语音交互对实时性的要求极高。保险电销的实测数据表明:AI 坐席必须在客户说完 1 秒内接话,否则「机器感」就会瞬间出现。传统语音链路(ASR + LLM + TTS)是串行处理,每一步都要等上一步结束,延迟常常高达 2~3 秒——在真实对话中几乎不可接受。

如果说低延迟是门槛,而「拟人感」则是灵魂。

一段富有情感的声音,能瞬间建立陪伴感与黏性。C 端用户追求沉浸与共鸣,一个机械音足以让人出戏;B 端企业则依赖语气的自然与可信,才能传递专业形象。

拟人感也包括足够聪明——比如,AI 客服需要读出 max-support@tech.com。一个「笨」的 TTS 会念成「max 减...」,而「聪明」的 TTS 则会读成「max『杠』...」。这不仅考验模型的语音理解能力,也依赖于丰富的本地语言数据去支撑训练。

不同的 TTS 在表面上看起来似乎差别不大,但真正的差异藏在细节里——只有开发者才感受得到,而用户的留存,正是被这些细节一点点改变的。哪怕只是降低一秒延迟,用户也可能因此留下。

02

为 Voice Agent 而生

MiniMax Speech 2.6

什么样的语音模型,才算是为 Voice Agent 而生?

在语音生成这条赛道上,MiniMax 一直是榜单常客——AAHugging Face 榜单第一已成常态。不过,近期 Minimax 发布的Speech 2.6 模型,专为 Voice Agent 打造,MiniMax 交出了一份更惊艳的答卷。

直接看 Demo,就能感受到变化。



在官方发布的这段模拟客服场景 Demo 中,Speech 2.6 模型声音的表现力十分惊艳。

模型的女声客服并非匀速的机械播报,而是充满了细节。语言有时候快,有时候慢,这种语速的自然变化和节奏感非常接近真人对话。更关键的是,它甚至会生成一些极其拟人的微小停顿和吸气声,仿佛在思考或组织语言,这让「真人感」变得极强。那种微妙的节奏感,让人第一次觉得 AI 的「嗓音」是有呼吸的。

而在这些「听起来很自然」的背后,是一组更为惊艳的数据。

首先,Speech 2.6 就对准了 Voice Agent 的生死线——延迟

MiniMax Speech 2.6 将首包(First-packet)响应时间压缩到了250 毫秒

这是一个什么概念?行业实践和一线项目的共识是,1 秒(1000 毫秒)是语音交互体验的绝对分水岭。一旦延迟超过 1 秒,对话的节奏就会被彻底打断,用户的感知会立刻从「交谈」切换为「等待机器响应」。而 250 毫秒,意味着从 AI 的 LLM 大脑「想」完答案,到 TTS「开口」说出第一个字,中间的停顿几乎符合人类的生理感知极限。这为实现真正流畅、可打断的实时对话流(Real-time Conversation Flow)提供了最关键的技术前提。

在语音赛道,MiniMax 的指标一直与 11Labs 这样的国际头部玩家「有来有回」。据一些行业测试披露,虽然 11Labs 官方声称其延迟可达 75 毫秒,但根据他们北美客户的实际测试,其在真实网络环境下的首包延迟也在 200 到 300 毫秒区间。从这个角度看,Speech 2.6 的 250 毫秒,是一个在真实商业环境中可稳定复现的、极具竞争力的低延迟数据。它解决的是 Voice Agent 场景下最基础、也是最致命的「停顿」和「卡壳」问题,让对话得以真正「流动」起来。

更令人惊喜的,在一些决定专业度的小细节上,Speech 2.6 做得也非常不错。

我们在官网的体验区发现,这次更新的 Speech 2.6 模型现在能正确读出电话邮箱网址数学公式等结构化文本

网页链接

比如在这次测试中,笔者让它读出极客公园的网址,效果相当不错。

它不仅按照中文习惯读成了「点 net」,前面的英文部分也没有机械地一个字母一个字母拼读,而是自然地读成了「geek」和「park」两个单词——更符合语义,也更像人。

网页链接

更有趣的是数学题的测试。笔者随手从网上找了一道初中水平的题目讲解,让它来朗读。

除了加号、等号、根号这些常见符号读得准确,最让人意外的是,那些久违的「因为」「所以」逻辑符号,它也能正确读出——连笔者这个早已离开课堂多年的成年人都愣了一下:原来是这样读的。

更妙的是,它对「x」的处理方式。那种读法,听起来就像中国人平时念「x」时的口音。当我选了一个老奶奶的声音来合成时,整段讲解突然有了熟悉的画面感——就像长辈在耐心地给你讲题。

这个功能对于 B 端开发者来说价值巨大。过去,当 LLM 需要播报一个邮箱或网址时,开发者必须在 TTS 上游额外搭建一套繁琐的文本预处理(Text Normalization)规则库,用正则表达式或硬编码,手动「翻译」文本,否则模型就会出错。

而当模型更聪明,B 端厂商和开发者的技术栈就被极大简化了,显著降低了文本准备的复杂度和维护成本。

在官网上,笔者发现 MiniMax 还专门针对 Voice Agent 的长尾需求做了不少处理。

比如在声音复刻技术上。在真实的商业场景中,企业可用的原始素材往往是「不完美」的。比如,用于复刻的录音可能来自非母语人士(带有口音),或者在录制时有轻微的结巴、不流利的停顿。

传统的声音复刻模型只会忠实地「复刻缺陷」。这导致生成的语音虽然音色很「像」,但听起来「不专业」、「不好听」,在客服或电销这类需要高度专业形象的场景中根本无法使用。

Speech 2.6 新增的FluentLoRA模型,正是为了解决这个「复刻缺陷」问题。它能够在声音复刻的场景中,即使用户上传的是一段不流利的素材(如结巴、口音、非母语),也能够智能修正,复刻出一个流利、自然的表达。这极大拓宽了声音复刻的可用素材范围,让 B 端厂商在追求个性化音色的同时,不必再为素材的「不完美」而妥协,保证了 Voice Agent 对外输出的专业形象。

MiniMax 这种为 B 端落地扫清障碍的思路,不仅体现在「音色流畅度」这种精细的「深度」上,也体现在「多语种覆盖」的「广度」上。在多语言的支持上,Speech 2.6 此次支持四十多个语种,这为需要构建全球化产品的 AI 出海团队提供了坚实的底层支持。

MiniMax Speech 2.6 的升级路径非常清晰:它不再满足于做那个「指标刷榜」的 TTS 模型,而是通过解决延迟、智能和流畅度这三大难题,真正成为开发者最爱用的,下一代 Voice Agent 场景中,那个最稳定、最智能、最高效的「语音底层」。

03

谁掌握声音

谁就掌握下一代 AI 商业化的钥匙

大模型的技术竞赛,显然已经进入了下半场。

如果说过去两年的主题是「炼大脑」——比拼的是谁的 LLM 更智能、参数更高、跑分更强——那么现在,人们除了关心模型的智能能力,也关注正在谁的商业化能力更强。

Voice Agent正在成为下一代 AI 商业化的入口。在这场「Voice-First」浪潮中,LLM 负责」,TTS 负责」。AI 想得再聪明,也得说得自然,才能被人真正接受。谁能掌握更拟人、更低延迟的语音能力,谁就更有机会拿到商业化的「入场券」。

MiniMax 这次的 Speech 2.6 模型,让我们看到了它研发的能力和商业化的潜力。

在「声音」这个越来越关键的技术赛道上,MiniMax 早已是头部玩家。它的技术底蕴,来自于对底层架构的自研——基于AR Transformer 模型的高质量 TTS 系统。这种架构选择使其在语音的自然度、表现力和多语种支持上获得了先天优势。

在开发者生态上,MiniMax 的布局同样稳健。海外多家主流Voice Agent 基础设施平台已将其语音能力接入:包括曾为 ChatGPT 高级语音模式提供工具的LiveKit、GitHub 热门开源框架Pipecat,以及 YC 孵化的语音部署平台Vapi。对这些底层平台而言,接入哪个 TTS API,本身就是对其性能与稳定性的认可。



在国内,MiniMax 的语音能力也深度融入多个商业场景。从Rokid Glasses等 AR 设备,到荣耀魅族等智能终端,再到AI 玩具 Bubble Pal;从超级小爱纳米 AI 搜索Key AIMegaView AI 助手Fuzozo 平台;乃至教育与垂直领域的听力熊精准学——几乎所有语音交互形态,都能听到 MiniMax 的声音。

一个值得思考的问题是:一个技术指标早已登顶、同时被海内外「基础设施」和「终端产品」双重验证的语音模型,为什么还要专门为Voice Agent再做优化?

答案或许是——正因为有过大量落地实践,MiniMax比别人更早、更清晰地看到了 Voice Agent 场景的真正痛点。

Speech 2.6的发布,正标志着 MiniMax 先于其他公司的关注点转变:从「声音好听」,迈向「声音能落地」。

「好听」是一项技术指标,关乎音质、韵律与自然度,但要真正落地,还要解决更复杂的问题:延迟、智能与拟人。它解决的是开发者在落地时最棘手的问题,是 AI Agent 能否摆脱「机器感」、实现「专业度」的临门一脚。

通过在底层引擎中内嵌「智能化」和「流利性」,Speech 2.6 极大地释放了上层开发者的生产力。开发者不再需要耗费巨额成本去搭建繁琐的文本预处理规则,也不再需要为不完美的复刻素材而苦恼。

通过提供一个更快更聪明更流畅更全面的语音底层,MiniMax 正在为整个 Voice Agent 赛道减负——

让开发者能更专注于 LLM 的业务逻辑与场景创新。

在大模型竞争的下半场,谁能为下一代交互——Voice Agent 提供最无缝、最自然、最智能的声音交互,谁就掌握了商业化的钥匙。而 MiniMax 看起来,正在握紧这把钥匙。

*头图来源:由AI生成

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
郑丽文:尊重2300万台湾人意愿,绝不能武统!洪秀柱:当然可以打

郑丽文:尊重2300万台湾人意愿,绝不能武统!洪秀柱:当然可以打

刚哥说法365
2025-11-01 17:15:20
女子因桃花眼走红,订婚两年热度依旧,网友喊话:88号快回来上班

女子因桃花眼走红,订婚两年热度依旧,网友喊话:88号快回来上班

梅子的小情绪
2025-12-19 14:04:18
重磅!中国对英国和加拿大免签,今年2月17日正式执行!

重磅!中国对英国和加拿大免签,今年2月17日正式执行!

英国那些事儿
2026-02-16 20:15:54
朋友圈祝福语文案短句,一句简单的问候,一声真心的祝福

朋友圈祝福语文案短句,一句简单的问候,一声真心的祝福

心灵悦读
2026-02-09 07:45:36
生命树大结局爆哭!英雄正名这幕看麻了

生命树大结局爆哭!英雄正名这幕看麻了

草莓解说体育
2026-02-17 06:36:59
中央重拳打击鼓吹不婚不育歪风,生孩子才是正道,紧迫作务

中央重拳打击鼓吹不婚不育歪风,生孩子才是正道,紧迫作务

老猫观点
2026-02-16 18:34:42
2026年春晚还没开始,他咋就这么火了?网友:拜托,他可是李健啊

2026年春晚还没开始,他咋就这么火了?网友:拜托,他可是李健啊

这个才是真花生有壳
2026-02-15 20:15:03
国铁集团:“春运绿皮车严重超员视频”不实,系历史画面拼凑加AI

国铁集团:“春运绿皮车严重超员视频”不实,系历史画面拼凑加AI

澎湃新闻
2026-02-15 20:37:08
心酸!57岁王菲六登春晚,唱功失准,只能靠眉毛和耳环上热搜

心酸!57岁王菲六登春晚,唱功失准,只能靠眉毛和耳环上热搜

前行之路
2026-02-17 01:23:21
除夕、男篮更新名单:徐杰、胡明轩不在,能战胜日本吗?

除夕、男篮更新名单:徐杰、胡明轩不在,能战胜日本吗?

徐骧老表哥
2026-02-16 06:43:16
恭喜克莱,太爽了,10年8000万

恭喜克莱,太爽了,10年8000万

体育新角度
2026-02-16 16:34:50
官宣!2026年央视春晚节目单发布,合作伙伴超20家知名公司

官宣!2026年央视春晚节目单发布,合作伙伴超20家知名公司

第一财经资讯
2026-02-16 14:51:54
王菲天籁之音、迪丽热巴妆容、邓超不当显眼包、撒贝宁的眉毛……春晚热搜持续中

王菲天籁之音、迪丽热巴妆容、邓超不当显眼包、撒贝宁的眉毛……春晚热搜持续中

吉刻新闻
2026-02-16 23:41:20
恩里克:我们最近的表现没有完全反映在结果上,但我依然乐观

恩里克:我们最近的表现没有完全反映在结果上,但我依然乐观

懂球帝
2026-02-17 06:03:53
因“刘强东”走红蒋聘婷,在新加坡生活奢靡,身上女人味难以抵挡

因“刘强东”走红蒋聘婷,在新加坡生活奢靡,身上女人味难以抵挡

没有偏旁的常庆
2026-01-16 16:10:07
鲁比奥:匈总理欧尔班连任符合美国利益 愿在必要时提供金融协助

鲁比奥:匈总理欧尔班连任符合美国利益 愿在必要时提供金融协助

新浪财经
2026-02-16 19:48:37
左宗棠收复新疆后,慈禧赏他年轻宫女,左宗棠一句话让全场人大笑

左宗棠收复新疆后,慈禧赏他年轻宫女,左宗棠一句话让全场人大笑

千秋文化
2026-02-14 20:27:31
关晓彤春晚造型杀疯了!一出场就美到失语,这才是内娱天花板!

关晓彤春晚造型杀疯了!一出场就美到失语,这才是内娱天花板!

东方不败然多多
2026-02-16 21:54:21
哪些抵债方式让你出乎意料?网友:她没有再提,临走悄悄给了两万

哪些抵债方式让你出乎意料?网友:她没有再提,临走悄悄给了两万

夜深爱杂谈
2026-01-23 20:20:15
深度揭秘 | 封疆大吏罗保铭:贪婪腐化,大办丧事敛财,大搞迷信活动

深度揭秘 | 封疆大吏罗保铭:贪婪腐化,大办丧事敛财,大搞迷信活动

一分为三看人生
2026-02-11 16:18:47
2026-02-17 07:11:00
极客公园
极客公园
让最棒的创新成为头条
11805文章数 78761关注度
往期回顾 全部

科技要闻

阿里除夕发布千问3.5,性能媲美Gemini 3

头条要闻

日方宣称向中方提出交涉 中使馆驳斥

头条要闻

日方宣称向中方提出交涉 中使馆驳斥

体育要闻

短道男子接力半决赛失误后 刘少昂多次说"抱歉"

娱乐要闻

王菲六登春晚献唱 水滴钻石耳环再出圈

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

游戏
时尚
数码
本地
军事航空

PS发布会压轴!《战神》新作只有近30人白金

记录最近收获很大的一次深度链接

数码要闻

苹果可能多年不会对iPad Pro进行重大升级

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

军事要闻

慕安会美国角色逆转 中国议题"打满全场"

无障碍浏览 进入关怀版