网易首页 > 网易号 > 正文 申请入驻

对话式AI,等待下一次「万亿时刻」

0
分享至

当对话式AI具备人类智慧,《Her》从电影照进现实。

当郁闷的你与桌面上可爱的AI毛绒玩具“芙崽”倾诉心声时,你可能不会想到,人类与AI的自然对话,正激起一波隐秘的实时语音技术新浪潮,激发着巨大的商业蓝海。

10月31日,由声网与RTE开发者社区联合主办的Convo AI&RTE 2025第十一届实时互联网大会在北京正式开幕。在会上,声网创始人兼CEO赵斌就分享了这样一组数据——

2025年,67%的企业将对话式AI智能体置于战略核心位置,84%的企业计划在未来一年增加相关投入(数据来自Deepgram、Opus Research)。

相对应的是,声网对话式AI相关用量在2025年第三季度就实现151%的环比增长,展现出强劲的市场需求。



对话式AI整合了大语言模型(LLM)、自动语音识别(ASR)、文字转语音(TTS)、实时互动(RTE)等技术。

与AI对话,大部分人对此的印象是,AI大概率像是复读机一样毫无感情“念稿”,AI感十足。而对话式AI的出现,AI便能像人类一样自然、真实、流畅对话。

正如《Her》电影里的Samantha照进现实——男主角手上的小方块,不仅能准确识别语音、文本、图像,还能根据人类的语气、情绪、语言习惯,调整自己回复的语气。

而为帮助企业和开发者把握对话式AI这一历史机遇,声网在大会上正式发布了《2025对话式AI发展白皮书》。在这份白皮书里,声网团队经过行业调研,深入结合了其在RTE行业的经验,为对话式AI梳理了一份完整的图谱——包括技术演进、核心技术、主流方案和业态、质量评估体系、行业实践案例、以及未来趋势展望。

在理论之外,声网也用实际行动推动对话式AI的发展。此次发布会,声网还发布了一系列对话式AI产品,包括下一代对话式AI引擎、配套的对话式AI开发套件、模型的评测平台和编排平台等。

一场对话式AI的浪潮,正在掀起。

对话式AI走进现实

回想一下:你一般是什么情况下会调用苹果手机里的Siri,与之对话?

大部分人的回答或许是,大概率是睡前定闹钟的时候。有这么一组符合直觉的数据:行业数据显示,目前仅21%的用户对现有AI对话体验满意,部分服务的用户流失率甚至高到“不可接受”。

其实,人类不是不愿意与AI说话,只怪AI太不懂人类。本质上,人类的对话中,仅有7%的信息来自语言内容,超过90%的信息感知来自语调、表情、肢体语言等非语言要素。

而要让AI进行“类人对话”,企业接下来要攻克的技术挑战还有很多。

比如,目前大部分对话式AI的端到端延迟普遍在3秒以上——人类之间聊天的延迟正常一般在400毫秒左右。正是这短暂的3秒,构成了人机交互一大痛点。在商业的世界里,仅几秒的等待,就会让用户失去耐心。因此,与时间赛跑,攻克响应延迟,正是对话式AI接近人类对话体验的一大壁垒。

除了延迟难关之外,对话式AI的另一个技术挑战是,AI如何具备人类智慧的“内核”。

一些人机交互场景能令很多人感同身受:对话时,AI可能会因为用户清嗓声、键盘声、或者人类的片刻迟疑而被打断,上下文中断。或者,当你置身于嘈杂的派对、展会时,AI经常无法锚定真正用户的声音,而失去注意力。

前述种种体验,看似细微,却是人和AI之间能否建立信任、构建情感依赖的关键。对于用户来说,期待的不仅仅是一个能提供正确回答的机器,还是一个有“人味”的AI。

为此,声网创始人兼CEO赵斌对话式AI的技术挑战概括为几点:低延迟响应、自然打断、上下文管理、情感理解与表达等。

而为了解决这些技术难点,目前行业里的主流技术方案是级联模式。简言之,级联模式就像是一条分工明确的“流水线”,在这条流水线上,语音对话被拆解为三个独立步骤串行工作(语音转文字ASR—大模型理解文字LLM—文字转语音TTS)。

相比于其他模式,级联模式更加模块化,开发者可以像搭积木一样,灵活选用三个环节自认为更优秀的供应商,以此优化成本、提升效果。为此,级联模式成为行业中大多数的AI客服、智能音箱等应用的技术方案选择。

以声网为例,他们正是围绕级联模式,构建了覆盖不同客户群的三类产品形态。对于希望快速上线的应用开发者,声网推出了对话式AI引擎2.0。作为开箱即用的一站式解决方案,声网试图击破前述种种对话式AI的痛点。



具体而言,引擎2.0依托于全球实时网络,能够实现端到端高速响应,实现超低延迟。另外,还内置了智能打断、声纹识别等先进功能,使得对话能够实现智能交互。此外,引擎2.0还是开发者友好型设计,支持多种主流大模型,不同的模块功能也可以按需选用,能快速集成到不同的应用场景中。

当然,对于希望灵活选型和深度定制的公司,声网还提供了模块化的SDK,比如语音识别/语音识别SDK,让开发者自由“搭积木”。而对于已经使用声网实时音视频服务的客户,若希望在不改变架构的前提下叠加AI能力,声网还提供了一众扩展套件,可以“插件式”增加一系列对话式AI功能。

通过引擎、SDK、拓展套件这三类产品形态,声网覆盖了从“小白”到“专家”的不同客户群体,确保所有客户都能在其生态内找到最适合自己的方式,让对话式AI走向现实。

给对话式AI一把“尺”

不管是与人类还是AI交流,对话始终是一件很主观的事情。但如果要让对话式AI更长远发展,行业缺乏一套全面完整且客观的评估框架,就像是给对话式AI划定了行驶的航道。

尽管行业里已经提出了部分评估方法,比如任务完成率、词汇错误率等等,这些都是单点技术指标评估,维度未免过于碎片化、存在局限性。但现实是,对话式AI的语音、对话等要素过于复杂,原有的评估手段难免与实际体验存在巨大鸿沟。

为此,在声网发布的《2025对话式AI发展白皮书》中,便提出了“三维二轨”的评估框架——“三维”,考核的是AI本身的能力,比如理解能力、表达能力、交互能力;“二轨”,则是考核AI的两种方法,包括基准测试和用户导向测试。



看起来略显抽象,但请代入这个评估框架,设想一下你正在面试一位AI助理。此时,你对其抛出了一个指令——“帮我预定一个适合商务宴请的意大利餐厅”。

理解能力更强的AI助理,便能够抓取提炼并且理解你指令里的关键词汇,比如“今晚”、“商务宴请”、“意大利餐厅”。而理解力弱的助理,可能只抓住了“餐厅”这个关键词,反手推荐了隔壁的麦当劳餐厅。

紧接着,表达能力强的AI助理,会根据你指令里传递的情绪,用自然且愉悦的语调为你介绍合适的餐厅有什么特色。而表达能力一般的助理,则只会用僵硬的播音腔,把一长串地址念出来,像是一台无情的复读机。

在AI助理介绍餐厅时,你突发奇想打断了它,询问“餐厅附近是否有停车场?”

此时,交互能力差的AI助理可能直接忽略了你的提问,坚持把餐厅介绍完再停下。而交互能力强的助理,对话节奏感和打断处理能力拉满,它可能会马上停下并且帮你查询信息,最后再补充一句,“还需要继续帮你查询菜品吗?”。

值得注意的是,这套评估框架不仅仅用基准测试保证对话式AI基本功过硬,在硬性技术指标评价之外,还将用户导向测试也融入实战测试,让对话式AI也能得到用户侧的主观评价。

如果说“三维二轨”给了对话式AI一把“尺子”,定义了什么是好的对话式AI框架和原则,声网并不止步于此,他们还基于这套框架,为广大开发者提供了一系列好用的实践工具。

声网的AI模型评测平台,正是通过精准定位对话式AI场景的核心痛点,创造了一个关键的“决策支持系统”。据介绍,该平台通过模拟真实对话的交互测试,在全球十大城市节点动态监测并更新数据,直观对比主流ASR、LLM和TTS模型的实时性能。

举个例子,当一个开发者想基于声网的对话式AI引擎做一个“AI社交陪伴”应用时,他就可以直接在声网的评测平台上,针对“社交陪伴”场景非常在意AI的响应延迟,横向评测不同的ASR、LLM、TTS模型在响应延迟方面的性能表现,最终选择更匹配自身业务的模型组合。

当对话式AI逐渐走出概念,在技术路线、产品方案、评估标准、工具等方面快速完善,也注定了其将在更多领域快速生根落地。

对话式AI落地,润物细无声

目前,对话式AI已经在智能硬件、情感陪伴、在线教育三大场景中率先实现规模化落地。

2025年被视为AI硬件的爆发元年,从以“芙崽”为代表的AI陪伴硬件引爆行业,以Ray-ban meta为代表的AI眼镜也掀起“百镜大战”。而热闹的AI硬件中,对话式AI扮演了举足轻重的作用——赋予了冷冰冰的硬件类人的灵魂和智慧。



在情感陪伴领域,以星野、Charecter.AI为代表的AI社交应用里,对话式AI则使得AI对话从机械应答,进化成为具有记忆力、有个性、能共情的社交引擎。对话式AI让AI真正陪伴在人类身边。

在教育领域,对话式AI则正在掀起一场教学革命。比如,对话式AI让口语陪练更拟人,营造更有沉浸感的语言学习环境;对话式AI所衍生的AI双师(豆神AI),也促进了教育资源的平等。

种种迹象可见,对话式AI的生态正在持续飞快构建中。不过,你可能会好奇,未来的对话式AI,还蕴含着什么样的想象力。而声网在其白皮书中,也描绘了未来的图景。

首先,对话式AI未来将会在多模态交互上实现质的飞跃,实现边听边说、能看懂用户表情语言、手势语言等等功能,人机交互无限接近于人人交互——正如声网发布会上,创始人兼CEO赵斌所展示的“AI客服”时,台下观众很难分辨对话的是机器还是人类一般。

其次,未来的对话式AI或许不仅仅只是一个单点、被动响应的工具,而是一个多智能体协同的“超级助手”。

在商业的维度,未来的对话式AI也可能隐藏着更多的商业价值。或许,它的存在形式会更加隐秘多元,可能会融入业务流程,或者是成为组织里面的数字员工,也可能成为全新的信息入口和服务枢纽。

你也可以大开脑洞,对话式AI未来或将化身为“数字生命体”——在成长阶段,它是人类启蒙的守护者。在工作阶段,它又化身工作生活的全能协助者。随着人类数据的积累,它将进化得更懂你。

结语

最早诞生于60年代的对话式AI,是在大模型时代、具备了类人能力后,才真正进入飞跃时刻。这一看似简单的技术,长远却有着深远意义。

首先,对话式AI彻底改变了人类与机器沟通的底层逻辑,使得过去以图形界面(GUI)为主的人机交互,进化到更符合人类本能的交流方式。这种转变,将大大降低AI技术的使用门槛,进而实现AI的平权和技术普惠,

其次,对话式AI还将帮助人类从繁琐复杂的任务中解放出来,让人类得以更专注于有创造性、有战略性的工作。当中因此潜藏无限的商业可能,可能产生更多全新商业模式和业态,不仅限于当下火热的陪伴类AI原生APP、AI陪伴硬件等等。

总而言之,对话式AI不仅代表技术高地,本质上更是改变了交互方式、生产关系、带动经济增长。

在声网此次的发布会上,声网创始人兼CEO赵斌表示,截至目前,声网年度服务分钟数首次突破1万亿分钟。这是一个里程碑,标志着RTE技术(实时互动,Real-Time Engagement)已成为行业里不可或缺的“水电煤”。

当一众技术子集羽翼渐丰,对话式AI已经万事俱备。它正在等待自己的“万亿时刻”。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
出事了,停摆35天终酿成大祸,现场惨烈,特朗普:不妥协继续关门

出事了,停摆35天终酿成大祸,现场惨烈,特朗普:不妥协继续关门

振华观史
2025-11-05 14:12:37
随着雷霆8连胜创纪录,勇士赢太阳,西部最新排行:快船跌至第10

随着雷霆8连胜创纪录,勇士赢太阳,西部最新排行:快船跌至第10

球场没跑道
2025-11-05 14:38:11
70岁大爷和30岁保姆生下儿子,亲子鉴定后,大爷却被自己儿女气死

70岁大爷和30岁保姆生下儿子,亲子鉴定后,大爷却被自己儿女气死

纸鸢奇谭
2025-09-08 09:31:42
女子参加婚礼穿包臀裙和黑丝,抢了新娘风头:新郎都不好意思了

女子参加婚礼穿包臀裙和黑丝,抢了新娘风头:新郎都不好意思了

唐小糖说情感
2025-11-05 09:11:11
以防长称将在“黄线”内不设限制地打击哈马斯

以防长称将在“黄线”内不设限制地打击哈马斯

界面新闻
2025-11-05 19:28:04
是谁导致了美国衰败?不是“无法无天”的特朗普,也非小布什拜登

是谁导致了美国衰败?不是“无法无天”的特朗普,也非小布什拜登

军机Talk
2025-11-03 15:36:42
瑞银:中国接近半数家庭房产处于账面亏损状态

瑞银:中国接近半数家庭房产处于账面亏损状态

互联网大观
2025-11-04 13:43:22
全运会乒乓球男团分组:上海和北京同组,樊振东大概率交锋王楚钦

全运会乒乓球男团分组:上海和北京同组,樊振东大概率交锋王楚钦

懂球帝
2025-11-05 15:57:07
秦始皇姓嬴名政,为何儿子却叫扶苏和胡亥?看完可算懂了

秦始皇姓嬴名政,为何儿子却叫扶苏和胡亥?看完可算懂了

大国纪录
2025-11-04 14:51:55
立即停用这种“厨房神器”,已致多人死亡,很多家庭还在用!

立即停用这种“厨房神器”,已致多人死亡,很多家庭还在用!

DrX说
2025-11-03 14:13:43
10年湖北打工妹嫁英国高管,结婚8 年持刀捅死丈夫,如今下场唏嘘

10年湖北打工妹嫁英国高管,结婚8 年持刀捅死丈夫,如今下场唏嘘

银河史记
2025-11-04 20:17:37
曝光!重磅间谍案件!

曝光!重磅间谍案件!

李荣茂
2025-11-04 07:57:13
波克罗夫斯克会成为下一个巴赫穆特吗?

波克罗夫斯克会成为下一个巴赫穆特吗?

山河路口
2025-11-03 17:06:51
美媒:中国100式坦克已经颠覆西方认知,原来坦克还能这么造?

美媒:中国100式坦克已经颠覆西方认知,原来坦克还能这么造?

云上乌托邦
2025-10-23 10:46:01
商务部新闻发言人就调整出口管制管控名单措施答记者问

商务部新闻发言人就调整出口管制管控名单措施答记者问

界面新闻
2025-11-05 17:01:53
浙经贸的三分钟战士大二弟弟火了

浙经贸的三分钟战士大二弟弟火了

杭城村叔
2025-09-11 12:54:47
从确诊到去世仅15天,“央视最帅主持人”的遭遇为人们敲响警钟

从确诊到去世仅15天,“央视最帅主持人”的遭遇为人们敲响警钟

小杨侃事
2025-11-05 17:05:22
貂皮大衣水洗退货后续:店主驱车300公里,买家身份流出 警方回应

貂皮大衣水洗退货后续:店主驱车300公里,买家身份流出 警方回应

不写散文诗
2025-11-05 17:35:10
婆婆骨灰多出4颗钢钉,儿媳:怀疑不是家人骨灰!查监控发现缺失超2分钟

婆婆骨灰多出4颗钢钉,儿媳:怀疑不是家人骨灰!查监控发现缺失超2分钟

极目新闻
2025-11-05 15:38:00
开扣神器在TikTok爆红,上线2个月狂赚200万

开扣神器在TikTok爆红,上线2个月狂赚200万

跨境派Pro
2025-11-05 14:20:52
2025-11-05 19:59:02
36氪 incentive-icons
36氪
让一部分人先看到未来
149747文章数 2847173关注度
往期回顾 全部

科技要闻

大转弯!特朗普再提名马斯克盟友任NASA局长

头条要闻

国足换帅 邵佳一曾被赞是在德国踢球最成功的中国球员

头条要闻

国足换帅 邵佳一曾被赞是在德国踢球最成功的中国球员

体育要闻

赢下皇马,会是利物浦的转折点吗?

娱乐要闻

港星林尚武突发心脏病去世

财经要闻

中方官宣!对美关税,调整!

汽车要闻

智己LS9入局"9系"混战 全尺寸SUV市场迎来新变量

态度原创

本地
时尚
亲子
家居
数码

本地新闻

这届干饭人,已经把博物馆吃成了食堂

坏了,看到剧本杀鼻祖了!

亲子要闻

泰国媳妇第一次吃番薯烤的薯片,一口下去眼都亮了

家居要闻

别样府院 畅享诗意生活

数码要闻

威联通发布24盘位企业级NAS:锐龙7 PRO 7000加持,支持192GB内存

无障碍浏览 进入关怀版