网易首页 > 网易号 > 正文 申请入驻

天猫精灵AliGenie 5.0系统体验:唤醒语音助手不再靠喊话

0
分享至

你应该看过那个视频吧:有人跑到苹果店里大喊一声"嘿,Siri",一瞬间几十上百个Siri齐声"在呢,什么事",那环绕立体声效堪比杜比全景声!

干这事的人无疑是为了搞笑,但也无形中戏谑了一把所谓人工智能语音助手的一个不足,那就是必须要喊唤醒词才能进行对话或下达指令。需要唤醒词唤醒的语音助手们,似乎成了天经地义,但这事现在就被颠覆了。

9月17日,天猫精灵在云栖大会发布了首个全场景人机交流系统AliGenie 5.0,首次将人脸唤醒、唇动唤醒、手势操控、语音交互等多种形态的交互方式融合在一起。

简单地说就是,我不需要再喊一声"天猫精灵",直接就能跟机器对话了,有时候做减法比做加法更难,AliGenie 5.0省掉的这一步对于人机交互来说是革命性的。

多模态唤醒首次大规模应用落地

AliGenie升级到5.0后,将唇动、手势、语音语义等多种形态的交互信息融合在一起,这也就是人机交互领域常说的多模态。

模态,虽然不是我们的日常用语,但从字面意思上其实很容易理解。正如我们有视觉、听觉、嗅觉和触觉等,传递出的信息就有视频、图像、语音、手势、姿态等,每种形式可以称作一种模态。

多模态融合的人机交互一直是人工智能研究的热门领域,但此前更多停留在学术研究层面。而AliGenie 5.0系统已同步落地到天猫精灵今年的三款秋季新品上:天猫精灵CC10电池版家庭智慧屏(以下简称CC10电池版),天猫精灵CC MINI智能时钟屏以及IN糖2智能时钟音箱。其中,CC10电池版将率先上线多模态唤醒功能,并在10月中旬逐步升级覆盖CC带屏系列产品。

这是多模态唤醒首次大规模应用在消费电子产品上,不管是对阿里公司,还是整个人机交互技术领域来说,它都具有重要意义。这或许也意味着,很快你对手机、智能音箱乃至整个智能家居发号施令的方式要全面变革了。

当然,变革的前提是,天猫精灵AliGenie 5.0系统所带来的多模态唤醒体验像它们宣称的那样好。我已对CC10电池版搭载的多模态唤醒功能体验了一段时间,可以说它确实刷新了我对智能音箱这类产品的使用认知,这种感受不能说是颠覆性,却新颖又熟悉。

就像在跟身旁同事说话

新颖和熟悉本是两个矛盾的词,但用在CC10电池版的交互体验上很合适。之所以说新颖是因为,居然我不需要先喊一声"天猫精灵",它就能直接回应我。

举个例子,我平时把CC10电池版放在办公桌一侧,写稿子时想要听歌了,把头一转向它,左下角的天猫精灵便提示"已人脸唤醒,我正在听……",几乎就是同时,我对它说"播放音乐",然后就开始放歌了,整个过程就像跟旁边工位的同事对话一样,根本不需要多费口舌喊声"天猫精灵"。

这也是我说它"熟悉"的原因,你想想和它对话就跟旁边同事聊天一样,自然的交流,能不熟悉吗?

升级到AliGenie5.0后,CC10电池版还支持多种手势隔空操控,比如对屏幕竖大拇指就能收藏当前播放内容,做个"嘘"的手势,就可以马上让天猫精灵静音,这种很"拟人化"的交流方式让交互感受更顺畅了。

使用过程中我还发现,从侧过脸到讲出指令,或者举手做"嘘"的手势,到CC10电池版接收指令做出反应,中间并没有太多等待时间,整个响应过程是一气呵成的,这当中也离不开多模态唤醒的作用。

据介绍,天猫精灵的算法专家通过融合视觉识别能力、语音识别能力以及上下文语义,把视觉和语音信息通过深度学习的方式进行融合然后输入到机器"大脑",进而做出综合性决策,让机器"能听、会看"。

也就是说,开启多模态唤醒功能后,在盯着机器张嘴说话时,天猫精灵会自动识别出我的唇动、眼神朝向、表情动作,接收语音信息的同时就能直接给出对应的反馈了。

使用CC10电池版的时候,我也发现,如果我对着CC10电池版时没有讲话,而旁边的同事在讲话,它也不会被误唤醒,因为这时机器接收到的声音和图像信息没有匹配。而当我在说话的时候,它接收到我的嘴唇动作和声音是匹配的信息,就会被唤醒并识别指令。

我们在对未来人工智能的畅想中,并不希望看到唤醒-接受指令这种机械的方式,而是全面"拟人化"的交流。当不需要再喊出"天猫精灵"的唤醒词,就能跟CC10电池版自然交互时,我发现这个智能助手是真的懂我了。

让每个人无差别享受AI

根据天猫精灵数据,在家庭生活场景下,结合人脸、唇动唤醒和语音自然对话,多模态识别的准确率超过99%。从CC10电池版在我办公桌旁的这段时间来看,近距离的唇动唤醒成功率是很高的,即使是人声更嘈杂的办公室环境,它也没有被其他人的语音误唤醒的情况出现。

事实上,多模态唤醒相比单一的语音唤醒词能够更好降低误唤醒率。在各家智能助手发展的过程中,为了语音唤醒成功率这个指标,算法会把语音感知的灵敏度调整得很高。过高的灵敏度很容易捕捉到汉语里某些发音相似的音节,因此哪怕是一家人日常闲聊,电视里播放新闻,乃至三更半夜时,音箱里的语音助手们都可能突然说话,让人莫名其妙。

在免唤醒的对话情景下,天猫精灵需要融合嘴唇、语音的动态信息识别,能够帮助机器过滤掉90%以上的环境背景干扰信息,反而能够做到比特定的唤醒词更高的准确率,同时大大降低误唤醒率。

唇动唤醒的方式也是此次天猫精灵AliGenie 5.0系统的首创,先提取人讲话时的唇动关键特征点,经过唇动的分析,当图像序列和音频序列能成功匹配时,继而结合上下文语义综合判断出用户与机器对话的行为意图,最终唤醒设备。

搭载AliGenie 5.0的CC10电池版,根据生活中常见的"近场、中场、远场"三类人机交互情景,可以综合调动多种交互信息来确认我们的交流意图。近场也就是1米左右的交互情景下,唇动唤醒无疑是最自然的。1-1.5米左右的中场距离下,模拟人们打招呼的形式,对着机器挥手说话即可唤醒,此时也不需要喊出"天猫精灵"。

更远距离时,直接通过"天猫精灵"唤醒词下指令也是最拟人化的体验,未来,天猫精灵还将利用声纹识别技术来辨别声音来源的方向、位置,让语音唤醒的反馈更精准。虽然真实生活场景中,还会受到人脸距离、光线等因素的影响,但AliGenie 5.0在人机交互上无疑已开始一段新的征程。

有了多模态识别的能力,经过一段时间的训练,未来人工智能助手能把人和声音及声音方向、手势动作都"对号入座",在一个家庭空间中,可以真正认识、分辨出每一位家庭成员,熟知每个人的生活习惯和喜好,并且在任一位置都能与家庭成员自然交流,它与理想中的未来智能助手的样子已越来越接近了。

许多科幻电影描绘的未来生活,人工智能化身成一个不折不扣的管家,不再是被动的接受命令,而是通过用户的私人喜好与定制化需求主动提供服务。这个过程的建立就是通过自然语言的交流实现的,之所以它看起来如此美好,正是因为自然交流对于人来说几乎没有学习成本。

家庭里的成员构成复杂多样,与机器的自然交流还意味着它可以让所有人无差别使用最新技术。语音对话、唇动唤醒、眼神手势交流融合的自然交互方式,意味着在技术层面,降低了人们触达前沿科技的门槛。

网购、移动支付、网约车、外卖,还有人人都离不开的健康码,技术让许多人生活变得越来越便利,但有的人却因为种种原因无法享受到,这不是人或者技术的错,在改变的过程中,技术需要辅助人们适应变化,而不是跟人对立起来,造成所谓的"淘汰"。

天猫精灵AliGenie 5.0将多模态唤醒的落地,其实就是做了一件看起来简单但伟大的事:用跟人一样打交道的模式,为更多人提供前沿科技带来的便利,让每个人无差别享受AI。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
金融机构个人消费类贷款催收工作指引发布

金融机构个人消费类贷款催收工作指引发布

新华社
2026-01-30 22:01:05
你见过的土豪是什么样子的?网友:前台小姐直接跟着他走了

你见过的土豪是什么样子的?网友:前台小姐直接跟着他走了

特约前排观众
2025-08-19 00:20:03
程序员周末猝死事件最新进展:涉事公司HR离职 曾因“不希望家属拿家人生命换钱”言论引争议

程序员周末猝死事件最新进展:涉事公司HR离职 曾因“不希望家属拿家人生命换钱”言论引争议

红星新闻
2026-01-30 00:28:08
歼-36四号原型机亮相,尾部变化非常大

歼-36四号原型机亮相,尾部变化非常大

三叔的装备空间
2026-01-30 21:14:57
欧美芯片企业严重警告!如果中国再降价,世界芯片产业将被毁灭

欧美芯片企业严重警告!如果中国再降价,世界芯片产业将被毁灭

夕阳渡史人
2026-01-30 09:46:11
河南伴郎一己之力毁掉一场婚礼!有一种朋友,比小三还可怕100倍……

河南伴郎一己之力毁掉一场婚礼!有一种朋友,比小三还可怕100倍……

脆皮先生
2026-01-29 20:02:26
聂荣臻晚年回忆下令枪毙沙飞,懊悔不已:当时我们不知他有精神病

聂荣臻晚年回忆下令枪毙沙飞,懊悔不已:当时我们不知他有精神病

大运河时空
2026-01-30 06:35:03
历史如此巧合?杨开慧雕像缺失的石料,竟是主席像的“另一半”!

历史如此巧合?杨开慧雕像缺失的石料,竟是主席像的“另一半”!

鹤羽说个事
2026-01-23 16:07:42
童锦程孩子妈露全脸!颜值封神引争议?

童锦程孩子妈露全脸!颜值封神引争议?

梦醉为红颜一笑
2026-01-31 02:31:08
注意 | 2月1日起,天津一道路封闭!

注意 | 2月1日起,天津一道路封闭!

天津人
2026-01-28 19:06:18
梁田同志逝世

梁田同志逝世

澎湃新闻
2026-01-30 01:51:08
扒开《乡村爱情》的薪酬底裤,我才看懂赵本山的狠

扒开《乡村爱情》的薪酬底裤,我才看懂赵本山的狠

西楼知趣杂谈
2026-01-30 22:28:03
稀土“去中国化”半路夭折?美驻华大使发出尖叫:中方操作违规!

稀土“去中国化”半路夭折?美驻华大使发出尖叫:中方操作违规!

晓肂爱八卦
2026-01-30 19:30:02
钱再多有什么用?51岁百亿影帝黄渤如今的现状,给所有人提了个醒

钱再多有什么用?51岁百亿影帝黄渤如今的现状,给所有人提了个醒

喜欢历史的阿繁
2026-01-26 13:20:51
深圳不敌上海,卢伟赛后言论遭球迷质疑应下课

深圳不敌上海,卢伟赛后言论遭球迷质疑应下课

逗比演员说体育
2026-01-31 02:30:48
央视预定!又一部24集历史大剧来了!我想说:《太平年》有对手了

央视预定!又一部24集历史大剧来了!我想说:《太平年》有对手了

草本纪年
2026-01-30 20:34:54
英国首相斯塔默:与中国接触符合国家利益

英国首相斯塔默:与中国接触符合国家利益

参考消息
2026-01-29 11:28:59
明星卸妆后,金晨嘴凸龅牙,陈数苍老了不少,王一博简直认不出

明星卸妆后,金晨嘴凸龅牙,陈数苍老了不少,王一博简直认不出

胡一舸南游y
2026-01-20 16:50:06
“黄金配角”的逆袭!47岁靠《太平年》魔鬼演技,风头碾压男女主

“黄金配角”的逆袭!47岁靠《太平年》魔鬼演技,风头碾压男女主

喵喵娱乐团
2026-01-28 17:41:55
“莫名让我优惠50年”,商户称外卖平台“商战”成本转嫁实体店;专家分析补贴背后

“莫名让我优惠50年”,商户称外卖平台“商战”成本转嫁实体店;专家分析补贴背后

大风新闻
2026-01-30 16:12:20
2026-01-31 07:16:49
电脑报 incentive-icons
电脑报
创刊于1992年的计算机报
26746文章数 211697关注度
往期回顾 全部

数码要闻

苹果详解新版Siri运作机制 Gemini深度协作与隐私并重

头条要闻

特朗普:已向伊朗告知达成协议的最后期限

头条要闻

特朗普:已向伊朗告知达成协议的最后期限

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

警方通报金晨交通事故,否认网传骗保

财经要闻

水贝惊雷:揭秘杰我睿百亿黄金赌局的背后

科技要闻

意念控制机器人不是科幻 1-2年就落地

汽车要闻

合资品牌首搭800V/5C快充 东风日产NX8将于3、4月上市

态度原创

手机
游戏
本地
数码
公开课

手机要闻

三星Galaxy S26 Ultra手机官方渲染图曝光

向全体二游策划宣战,你们能不能直接把我推删了?

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

数码要闻

美国洛杉矶拟禁止一次性打印机墨盒,厂商商业模式或受冲击

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版