网易首页 > 网易号 > 正文 申请入驻

WAIC现场最“聪明”展台!AI对话眼睛耳朵能力全打开

0
分享至

西风 发自 凹非寺
量子位 | 公众号 QbitAI

WAIC现场,这个展台被观众挤爆了!

凑近一瞧,好家伙,展台里摆满了各式新奇的“AI玩具”,它们有个共同点——

全都能实时与玩家流畅对话,延迟极低



比如这款“AI毛球”,活脱脱一个电子宠物,不仅能实时理解你的话语,还能默默陪伴左右,提供满满的情绪价值:



视频链接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ

此外,现场还有数字人全息仓、能对话的卡皮巴拉等,赚足了观众眼球:



其实它们有个共同的“幕后推手”,这些产品的实时对话能力,全都依托于声网的对话式AI引擎

更值得一提的是,声网刚宣布,他们的对话式AI引擎已完成全新升级

新增选择性注意力锁定功能,让它在嘈杂会场也能精准捕捉你的声音,实现“只听你说”;同时新增视觉理解能力;还能与主流数字人方案无缝集成

一句话概括,新版对话式AI引擎,变得更“耳聪目明”了。

要知道,声网是做RTE(Real Time Engagement,实时互动)技术起家的,在音视频处理和实时通信领域深耕多年,现在转身做多模态AI交互,属实是“专业对口”,一出手就有狠活。



这次对话式AI引擎升级背后到底带来了哪些AI交互新体验?接下来就为你详细揭秘。

三大升级,AI听得准看得清

量子位拿到demo app,直接体验了这波升级。支持事先调整预设



听力开挂:嘈杂环境里只听你的话

使用对话式AI第一步,自然是考验它能否从各种干扰中准确识别出用户的指令,这直接决定了AI对话体验的好坏。

声网新版对话式AI引擎的第一个杀手锏,就是选择性注意力锁定功能。

刚开始对话时屏幕上就会提醒用户“在对话初期大声、清晰地说话”,由此它就会将你的声音锁定

在后续对话中面对环境人声和噪声干扰,它能够根据锁定用户的声纹特征精准识别,屏蔽95%的干扰。即使在复杂的声音环境中,它也能准确捕捉到你的每一个指令。



来看实测对比,当用户在对话初期没有大声清晰地说话,导致声音未被锁定时,AI常会受到周围的环境人声、电视声、音乐声干扰,出现误识别或响应延迟的情况。

(PS:我们同时播放电视剧、歌曲、短视频作为干扰。)



视频链接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ

而开启选择性注意力锁定后,即使旁边有其他人在交谈或音频播放,AI依然能够精准锁定目标用户的声音。



视频链接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ

询问旅游规划等需要它长时间回答的问题,它也不会因为环境干扰音而终止或是暂停对话:



视频链接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ

视觉理解,实时看图识物

如果说声音识别是AI的“耳朵”,那么视觉理解就是AI的“眼睛”。而最新版引擎为AI也实现了这样的能力,可以实时看图识物

就像和真人打电话一样,打开摄像头即可使用:



我们向它展示了一张房间平面草图,它不仅能够正确识别出这是什么,还能准确指出设计中的结构特点,额外提出了一些注意事项。



视频链接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ

当我们展示一张技术报告中的图表时,它同样能够理解其中逻辑,并用自然语言解释。



视频链接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ

测试中我们还发现,声网新版对话式AI引擎具有很强的上下文感知能力,当我们连续提问几个问题后,它能够理解问题之间的关联性,并给出连贯的分析。

数字人支持,对话更有“人情味”

第三个重要升级是数字人功能。

据介绍,新版引擎支持与主流数字人方案的无缝集成,包括商汤数字人等业界领先方案。

在预设中即可挑选配置:



在与数字人的对话中,它不仅能够准确响应语音指令,还能通过面部表情和肢体语言传达更丰富的信息

当我们询问复杂问题时,数字人会露出思考的表情;在解释概念时,还会配合手势动作,整个交互过程自然流畅。

例如询问“出门露营要带些什么东西?有什么注意事项?”数字人立马绘声绘色讲解:



视频链接:https://mp.weixin.qq.com/s/hjGitmrcspKgXYxVCQKOqQ

这种情感同步让人机交互体验更加自然真实。

总之,声网此次对其对话式AI引擎的升级,通过融合多模态打造了更加沉浸式的AI实时交互体验,而这也正是其技术实力的集中展现。

接下来划重点:这种能力可轻松接入DeepSeek等任意大模型。只要与OpenAI接口协议兼容,就能原生支持,且接入仅需两行代码



并且价格更是低至每分钟0.098元,还不到一毛钱。

这么多眼熟的应用,背后竟都有它

实际上,声网首版对话式AI引擎早在今年3月份就上线了,凭借效果优、开发接入极简、灵活性强,已在各行各业落地。

你可能都没发现,我们日常熟知的不少AI应用,背后都有它



在教育领域,豆神AI近期宣布将推出AI超拟人多对一直播课,课程采用真人教师与AI教师“双师”协作体系,实现千人千面的定制化训练与辅导,精准契合不同学生的学习需求。

在声网对话式AI引擎的加持下,AI教师能够在AI实时训练体系、课堂答疑、情境创设、AI实时判卷等环节中,全程与学生展开低延时、自然流畅的对话交互。

声网技术支撑不仅保障了AI语音交互的实时性和稳定性,更让学生在与AI教师的互动中获得如真人般自然的学习体验。



智能硬件领域,更是令人眼前一亮。

我们前面所展示“AI毛球”是Robopoet珞博智能所打造的首款AI情感陪伴产品“芙崽Fuzozo”。



传统陪伴机器人常给人冷冰冰的机械感,难以让用户产生情感联结。而芙崽不同,用户每日互动中可与芙崽积累亲密度,由此孕育出的每只芙崽都拥有独特性格,与用户形成独一无二的专属情感羁绊。

通过与声网的合作,芙崽AI交互的实时性和稳定性得到大幅优化。与此同时,声网的端到端解决方案,也从软硬件全方位为珞博智能提供支持。

同样令人印象深刻的,还有Enabot(赋之科技)的智能家庭陪伴机器人EBO Air 2 Plus

Enabot与声网合作,依托声网的对话式AI引擎技术,EBO能精准识别用户的打断意图,即便周围环境嘈杂,也能锁定对话人声,确保识别准确;同时,借助声网高质量的实时音视频服务,它还支持双向视频通话,用户无论身处全球何地,都能与家人实现零距离视频交流。



除此之外,无论是MiniMax Chat星野的语音对话功能,还是智谱清言的视频通话功能商汤商量的实时音视频交互,背后统统都有声网的技术支撑。

从娱乐聊天到知识问答,声网的技术方案已覆盖广泛场景。

这些成功应用案例不仅证明了声网对话式AI引擎在不同场景下的适应性和实用性,验证了其技术的可靠性,也为更多企业提供了可借鉴的落地经验。

那么为何大家都选择了声网?大概是源于声网多年的RTE基因。

用RTE基因重塑AI交互体验

近期国内外AI厂商持续加大多模态领域的投入,融合视觉、语音等能力的AI应用不断涌现,再加上WAIC现场的种种迹象,一个趋势非常之明显:

单一模态的AI交互正在成为历史,多模态AI交互已是明确的未来方向。

用户不再满足于只能“听”或只能“说”的AI,更期待的是能够像人类一样,通过视觉、听觉等多种感官实时理解世界的智能体。

作为实时互动技术领域的领军企业,声网在多模态AI交互方面天然具有技术优势。多年来在RTE领域的深耕,为其积累了丰富的音视频处理、低延迟传输、多媒体融合等核心技术能力。



更关键的是,声网做多模态AI交互不是技术的简单叠加,而是始终致力于提升对话式AI的交互体验。每一个功能升级背后,都指向同一个目标:

让AI对话更具真实感和自然感

无论是选择性注意力锁定带来的精准语音识别,还是视觉理解赋予AI的观察能力,抑或是数字人支持创造的情感化交互,这些功能都解决了用户在实际使用中遇到的真实痛点。

这种以用户体验为核心的产品思路,可能比单纯追求技术指标更能决定产品的市场竞争力。

可以预见,随着多模态AI应用的普及,那些能够提供低延迟、高稳定性、自然交互体验的技术平台,将在下一轮竞争中占据更加有利的位置。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
前皇马主教练:C罗不如萨拉赫全面!梅西是最佳前锋!

前皇马主教练:C罗不如萨拉赫全面!梅西是最佳前锋!

氧气是个地铁
2025-09-15 23:06:11
大老师这是37?你说17我都信!

大老师这是37?你说17我都信!

贵圈真乱
2025-09-16 10:51:13
离谱!32岁莫拉塔中场回传变吊射,险进史诗级乌龙,逆天空门不进

离谱!32岁莫拉塔中场回传变吊射,险进史诗级乌龙,逆天空门不进

念洲
2025-09-16 08:26:04
7分钟上齐3道菜,太二酸菜鱼“活鱼现做”遭质疑,客服:鲜活门店是活鱼现杀,其余门店为每日鲜配鱼柳

7分钟上齐3道菜,太二酸菜鱼“活鱼现做”遭质疑,客服:鲜活门店是活鱼现杀,其余门店为每日鲜配鱼柳

极目新闻
2025-09-15 18:20:49
陈震谈小米16改名:让人一看到iPhone 17就想到小米17

陈震谈小米16改名:让人一看到iPhone 17就想到小米17

手机中国
2025-09-15 13:45:01
房价已惨不忍睹

房价已惨不忍睹

樱桃大房子
2025-09-15 22:22:00
抱摔孙女后续!监控曝光恶毒奶真容,孩子爸底裤被扒,不愧是母子

抱摔孙女后续!监控曝光恶毒奶真容,孩子爸底裤被扒,不愧是母子

削桐作琴
2025-09-15 19:23:47
全红婵入读暨南大学,又高又壮长得和妈妈一样,网友担心影响跳水

全红婵入读暨南大学,又高又壮长得和妈妈一样,网友担心影响跳水

娱圈小愚
2025-09-16 08:53:04
苏永康演唱会遭遇抵制 大麦网已无苏永康在售演出

苏永康演唱会遭遇抵制 大麦网已无苏永康在售演出

红星新闻
2025-09-16 10:54:13
人民日报、新华社接连发文,只字不提罗永浩,却句句暗指罗永浩

人民日报、新华社接连发文,只字不提罗永浩,却句句暗指罗永浩

小兰聊历史
2025-09-15 17:48:40
12秒87名将折戟!徐卓一险胜,中国跨栏新希望靠谱吗?

12秒87名将折戟!徐卓一险胜,中国跨栏新希望靠谱吗?

阿晞体育
2025-09-16 09:27:11
罗永浩声明:决定和西贝和解!但是他结尾说的一句话,让网友后怕

罗永浩声明:决定和西贝和解!但是他结尾说的一句话,让网友后怕

晴晴的娱乐日记
2025-09-15 22:22:29
湖北一女子购买31斤黄金放家中,不料被儿子全部卖掉变现565万,还用 “巨款” 干了两件事,女子气疯了…

湖北一女子购买31斤黄金放家中,不料被儿子全部卖掉变现565万,还用 “巨款” 干了两件事,女子气疯了…

深度知局
2025-09-16 08:32:06
辛芷蕾终遭反噬:面对梁婷的5000字檄文,她真认怂假偿还

辛芷蕾终遭反噬:面对梁婷的5000字檄文,她真认怂假偿还

光影新天地
2025-09-15 21:20:10
深圳一市民捡到2267.83克巨型金条

深圳一市民捡到2267.83克巨型金条

深圳晚报
2025-09-15 19:38:21
小红书为什么被约谈?就是因为这女孩的视频,因为她的话太炸裂!

小红书为什么被约谈?就是因为这女孩的视频,因为她的话太炸裂!

花心电影
2025-09-15 08:24:28
女子散步误踩“化骨水”去世,记者调查:氢氟酸溶液可直接网购

女子散步误踩“化骨水”去世,记者调查:氢氟酸溶液可直接网购

极目新闻
2025-09-16 11:07:17
美制武器遭多国放弃,乌克兰女博主曝比尔盖茨援乌100亿美元细节

美制武器遭多国放弃,乌克兰女博主曝比尔盖茨援乌100亿美元细节

史政先锋
2025-09-15 17:41:44
妈妈亲手缝的“NIKE”书包火了,收到800多万点赞!

妈妈亲手缝的“NIKE”书包火了,收到800多万点赞!

大象新闻
2025-09-16 08:43:12
西贝公关又翻车了!发布的致歉信偷偷骂顾客,还被网友批改出20多处错误

西贝公关又翻车了!发布的致歉信偷偷骂顾客,还被网友批改出20多处错误

可达鸭面面观
2025-09-15 18:50:51
2025-09-16 13:03:00
量子位 incentive-icons
量子位
追踪人工智能动态
11325文章数 176273关注度
往期回顾 全部

科技要闻

理想i6定档9月26日发布,定位纯电五座SUV

头条要闻

印度要再买114架"阵风" 巴总统猛然晒出一张歼10照片

头条要闻

印度要再买114架"阵风" 巴总统猛然晒出一张歼10照片

体育要闻

乌姆蒂蒂,为世界杯冠军赔上职业生涯

娱乐要闻

宋祖英事业巅峰隐退?李谷一道破原因

财经要闻

华与华秒怂 罗永浩称已接到对方道歉

汽车要闻

优质智能体验/1.5T增程 别克至境L7正式亮相

态度原创

时尚
健康
数码
手机
艺术

2025秋冬靴子八大流行趋势!

内分泌科专家破解身高八大谣言

数码要闻

AMD宣布终止AMDVLK驱动!转向全力支持RADV

手机要闻

苹果推送iOS 26系统首个正式版本,新功能汇总及更新建议!

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

无障碍浏览 进入关怀版