网易首页 > 网易号 > 正文 申请入驻

腾讯高级研究员柴华:《智能语音助手产品和服务的评测探索》

0
分享至

文章整理自TiD2019质量竞争力大会

柴华(腾讯 高级研究员)

《智能语音助手产品和服务的评测探索》演讲

TiD2019质量竞争力大会邀请到腾讯高级研究员柴华为参会者带来《智能语音助手产品和服务的评测探索》的精彩演讲。

柴华分享的内容主要分为以下四个方面:第一,为什么要做AI评测及什么是AI评测;第二,如何评价AI系统的能力;第三,如何做更细粒度的评测;第四,如何挖掘并消灭badcase。

为什么需要AI评测&什么是AI评测

为什么需要AI评测

传统的软件测试方法很难应用到AI测试。

首先,AI的模型对我们来说是一个黑盒。黑盒很难判断出应该识别什么以及不该识别什么,也就是说AI真的不是神,甚至不如一个人,无法使用AI完全正确的完成测试。AI评测可以给用户和客户交付AI能力的持续保障。

第二,AI提供服务的对象一般主要是做ToB服务,无法直接获得用户行为状态。而AI评测可以通过线上监控,了解用户的真实状态。

第三,产品经理必须关注AI。一个关注点当前水准是什么样?下一步是怎么样能够更好?这是产品关注的事情,但是产品完成事情需要借助一些评测的力量帮助产品来了解下一步做什么?AI评测可以通过持续跟踪,帮助产品确定优化方向,更好地迭代提升。

第四点,开发技术人员需要知道用什么达到理想效果,什么样的技术更适合在什么样的场景下。AI评测可以通过多个项目的积累,提供出技术选型建议。

什么是AI评测

评测有两块,评和测。

关于评。第一个是依据市面上流行的AI产品标准对AI产品进行评级认证;第二个是对AI能力的有效度量。第三是对AI服务的用户满意度。

关于测。测主要是找出AI服务在哪些维度能力偏弱,未能成功完成的样例分析,以及AI能力如何迭代提升。

AI分类包括NarrowAI,generalAI,SuperAI。用智能语音助手举一个例子,智能语音助手简单来说包括三部分,当用户给出语音后,走一个自然语言的对话管理,转换成语音,最后报出来。

智能语音助手语音识别准确度如何?自然语言的理解能力怎样?是否能给出用户满意的答案?机器的表达和发音是否与人类相似?与相似产品相比优点在哪?劣势在哪?这些都是需要回答的问题。智能语音助手好不好,需要设立一个很大的评判标准。这是一件很难的事情。

如何评价AI系统的能力

AI评测的分门别类

具体看AI评测的分门别类。首先按评测对象分类,可按产品端、抽象模块、技术方案三方面评测。评测粒度按概念、举例、别名、评测目标、评测指标举例不同程度进行评测。按产品是否上线分类,可分为专业性评测和实用性评测,做到能力评测并观察线上实际服务效果及波动情况。按评测周期进行分类,可分单次评测、对比评测、时间线评测,按一段时间的指标变化评测。

评测集的构建和管理

评测中最重要的一个点就是评测集的构建和管理,这其实是一个很大的课题,评测集首先包括评测资源(Resource)、结果标注(Label)、标签分类(Tag)三种元素。评测资源可以按照会话(Session)来组装,用于保留使用场景的上下文以及会话维度的指标输出。

评测资源(Resource):指用于评测的原始输入数据。比如文本对话系统的原始文本语料、ASR的原始音频、 TTS的原始语料、翻译的原始文本语料。

结果标注(Label):指理想状态下被评系统应当返回的预期结果或者结果候选,一般以人工标注为真值。比 如领域分类中的正确领域真值。

标签分类(Tag):表示对资源细分,用于输出指标时的分类指标统计。比如对话系统原始文本标注单实体、 包含错字等标签,ASR中的性别、年龄等标签。

评价指标和方法

评价指标,只针对智能语音语义理解这部分,不同模型的评价指标完全不一样,使用较多的指标包括远端获取评价、任务完成率/完成代价等。基于这些指标可以划了一个二维图。指标代表性和指标输出速度都很高的的时候就是最理想的指标。但是目前,理想状态还有些空白。

评测执行的工作流

评测的执行过程相对来说比较偏工程化。评测的目的是什么?为了把一个产品从“0”推向“1”,或更优化的迭代,根据不同的目的选取不同的指标,比如要提升线上用户的能力,提升用户满意度。这时只能选线上指标,跟用户满意度比较贴近的指标更合理。

柴华简单的介绍了评测执行的工作流。其中,评测建设,评测指标来自于一线,如果对线上一个模型进行评测,就可能需要考虑从线上如何去抽样?获取实际用户的数值。这样有一个摸底评测,在制定一个优化目标的时候必须有一个SR来确定多长时间内的流程可以把目标定下来。整个过程进行周期性的迭代,每隔一段时间做出一个评价,持续迭代这样一个模型。并在每次做完一个指标的输出之后生成分析报告并同步出来,依据报告来进行badcase分析,回归测试。

如何做更细粒度的评测

不同的模型,不同的业务之间的区别非常大。那么,如何做更细粒度的评测呢?柴华通过一些模型举例,进行了详细的阐述。

横向TAG分析

根据资源种类不同划分tag,比如对Speech资源分为语音、年龄、性别、语言类型、方言类型等;对于Text资源分为句式、语言类型、情感、句法层数(通过语法分析到底有几层语法)、语体类型等。很多label都是借助模型,或机器学习打出来的,但由于对数据的准确度要求并不是特别高,故有些许影响分析准确度没有问题。

为什么要划分TAG?首先通过TAG可以计算评测集散度。一个评测值的质量高低也是需要评测的。质量评测通过指标定义一个散度的概念,就是说不同的TAG下,评测值中的分布是否都是该TAG下面的。针对于ASR,如果都针对于二三十岁年轻男性这样一个语音,就可能覆盖不到其他人群,从而认为这个评测值质量不是特别高。

这个系统弱点在于如果宏观只是给一个大的评价指标是做不出来的,此时需要建设资源特征,细化得到丰富的数据属性。

纵向组件分析

纵向组建分析本质上是对AI系统进行拆建,看看哪一环支持的不好,哪一环支持,如果有一些缺陷,就针对性的修改某一环的问题,比如相对于语音助手可以粗糙划分出来很多很多块。比如第一个是ASR,会同时进行意图分类和模版匹配,意图分类后进行槽位提取,综合两步操作的正确率得出对话管理的正确率,通过一个标准的流程,判断每一块的支持度如何。总结起来即通过优化点,带动面的提升。

模型全局优化思路

模型全局优化的思路,整体是一个闭环,包括以下几个步骤:训练集提升,可使用包括Cross-Validation、Model Bagging等方法;模型技术选型可参考技术选型白皮书、快速实验平台等;超参数调优,通过贝叶斯优化、Population Based Training等方法;机器延伸学习包括Transfer Learning、Multi-task Learning等方法;进行可解释性研究,参考LIME、Layer visualization等理论。

如何挖掘并消灭badcase

挖掘并消灭badcase是迭代机器学习模型最简单有效的途径。柴华在此部分介绍了一些线上挖掘的方法和思路。

通过头部聚类来发现线上大部分的问题在哪儿?首先如果服务未达到预期可能会产生的结果分为两类:用户产生消极情绪和用户重复发问。针对上述两种情形分别通过用户情绪分析和重复发问检测来提升评测效率。

通过badcase横向归类通过分析表象特征聚焦头部问题,分析用户影响。如ASR类badcase错法可能包括同音不同字、方言口音、噪声误收音、咬字不清等情况;NLU类badcase可能是由于未能理解、意图错误、槽位丢失、服务出错等原因。

通过badcase纵向归因在横向归类中找到的可能出现问题的方面寻找内在因素,如意图错误可能是由于模型泛化能力不足、模版误匹配、训练数据缺失等原因;槽位缺失原因可能是NER未识别或指代消解未完成。通过分析来实现进一步聚焦问题,集中进行模型全局优化及badcase分析优化。

badcase回归测试则是一个反复迭代的过程。首先发现头部badcase,发起评测专项并跟踪修复,修复后回归验证,最后再进行头部badcase检测。通过不断迭代进行优化。

最后,柴华向参会者详细解析了,在NLU评测中帮助领域分类模型迭代提升,让参会者对整个AI评测执行有更直观的体验。

大会简介

质量竞争力大会,英文名称TiD,是研发创新顶级峰会,由中关村智联软件服务业质量创新联盟主办,中国软件行业协会系统与软件过程改进分会、北京软件和信息服务业协会智能分会协办。TiD质量竞争力大会秉承追求行业高度(Top)、技术创新(innovation)、专业深度(Depth)的目标,致力于打造最具影响力的国内软件研发创新者顶级交流平台。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大陆惩戒名单出炉!赖清德家人已逃亡美国,洪秀柱:统一近在咫尺

大陆惩戒名单出炉!赖清德家人已逃亡美国,洪秀柱:统一近在咫尺

近史博览
2026-01-20 15:43:22
《镖人》陈丽君“咬箭羽”火爆全网,四代打星半个中国武打圈同框

《镖人》陈丽君“咬箭羽”火爆全网,四代打星半个中国武打圈同框

半糖甜而不腻
2026-01-20 12:30:02
格陵兰被抢,欧洲集体缩头认怂,俄罗斯强硬表态:这蛋糕我要一份

格陵兰被抢,欧洲集体缩头认怂,俄罗斯强硬表态:这蛋糕我要一份

小陈讲史
2026-01-21 09:28:40
离谱!《镖人》遭抵制,李连杰再被内涵换心脏:你买票他买零件

离谱!《镖人》遭抵制,李连杰再被内涵换心脏:你买票他买零件

非常先生看娱乐
2026-01-19 18:27:37
加拿大省长一语惊人:只要我们接通电话,就会被中国电车监听!

加拿大省长一语惊人:只要我们接通电话,就会被中国电车监听!

回京历史梦
2026-01-20 14:42:59
快扔掉!戴一天,辐射量相当于拍117次胸片

快扔掉!戴一天,辐射量相当于拍117次胸片

FM93浙江交通之声
2025-10-28 00:01:43
剪发、玩手机、拒交流!小玥儿这波“无声反抗”,狠狠打谁的脸?

剪发、玩手机、拒交流!小玥儿这波“无声反抗”,狠狠打谁的脸?

阿废冷眼观察所
2025-12-29 03:51:04
第二个立陶宛?又一国家踩红线,邀赖清德访问,中方这次不会手软

第二个立陶宛?又一国家踩红线,邀赖清德访问,中方这次不会手软

近史谈
2026-01-20 18:48:58
72%烟草倒挂逼哭零售户!宁可不订也不赔钱,市场根基正在烂根

72%烟草倒挂逼哭零售户!宁可不订也不赔钱,市场根基正在烂根

老特有话说
2026-01-07 00:40:03
轰43分7板!展现CBA顶级水平,才23岁 球迷:郭士强快签约他

轰43分7板!展现CBA顶级水平,才23岁 球迷:郭士强快签约他

体育哲人
2026-01-21 10:26:08
李心月曝黄晓明baby离婚原因!baby婚内出轨邓某,车内运动被发现

李心月曝黄晓明baby离婚原因!baby婚内出轨邓某,车内运动被发现

八卦王者
2026-01-21 15:52:49
A股:周三晚间传来3个核弹级利好!明天很可能会迎史诗级别大行情?

A股:周三晚间传来3个核弹级利好!明天很可能会迎史诗级别大行情?

股市皆大事
2026-01-21 18:12:54
大暴雪来了,预警:新一轮冷空气,雨雪25日开启,92W是2号台风?

大暴雪来了,预警:新一轮冷空气,雨雪25日开启,92W是2号台风?

环球科学猫
2026-01-21 10:58:40
马英九建议郑丽文:如去大陆访问,别穿高跟鞋,赶快练毛笔字

马英九建议郑丽文:如去大陆访问,别穿高跟鞋,赶快练毛笔字

扬子晚报
2026-01-20 17:59:47
名利双收,Shams:新科全明星首发马克西将推出首款新百伦签名鞋

名利双收,Shams:新科全明星首发马克西将推出首款新百伦签名鞋

懂球帝
2026-01-21 09:25:08
哈里王子睽违4年返英出庭,王室其他成员纷纷撤离伦敦!

哈里王子睽违4年返英出庭,王室其他成员纷纷撤离伦敦!

ChicMyGeek
2026-01-21 19:10:06
中越自卫反击战秘闻:越南坦言迟五日撤军,谅山守军将全军覆没

中越自卫反击战秘闻:越南坦言迟五日撤军,谅山守军将全军覆没

磊子讲史
2026-01-21 09:46:28
中方通知日本,血债必须偿还,解放军已上场,外交部也跟进行动

中方通知日本,血债必须偿还,解放军已上场,外交部也跟进行动

来科点谱
2026-01-19 08:53:34
今年没有大年三十,什么时候贴春联最好?这4件事要早知道,别不当回事,图个吉利!

今年没有大年三十,什么时候贴春联最好?这4件事要早知道,别不当回事,图个吉利!

农夫也疯狂
2026-01-19 11:57:16
张元英的大腿很嫩

张元英的大腿很嫩

白宸侃片
2026-01-21 12:57:33
2026-01-21 20:44:49
TiD质量竞争力大会 incentive-icons
TiD质量竞争力大会
Top、innovation、Depth,致力于打造最具影响力的软件研发创新者顶级交流平台
69文章数 25关注度
往期回顾 全部

科技要闻

给机器人做仿真训练 这家创企年营收破亿

头条要闻

风波中的西贝股权发生变化 新荣记张勇对贾国龙伸援手

头条要闻

风波中的西贝股权发生变化 新荣记张勇对贾国龙伸援手

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

首位捐款的明星 苗圃现身嫣然医院捐款

财经要闻

丹麦打响第一枪 欧洲用资本保卫格陵兰岛

汽车要闻

2026款上汽大众朗逸正式上市 售价12.09万起

态度原创

家居
艺术
房产
旅游
军事航空

家居要闻

褪去浮华 触达松弛与欣喜

艺术要闻

一百多年前的中国,太雄伟震撼了!

房产要闻

那个砸下400亿的绿地,又要杀回海南了!

旅游要闻

免票!超值套票!伏羲山冰雪节全线优惠上线!

军事要闻

特朗普:对美国的真正威胁是联合国和北约

无障碍浏览 进入关怀版