网易首页 > 网易号 > 正文 申请入驻

可解释机器学习技术之后置全局可解释详解

0
分享至

后置全局可解释
机器学习模型从大量训练数据中自动地学习有用模式,并将学到的知识保存到模型结构和参数中。后置全局可解释旨在为预先训练的模型所获得的知识提供全局解释,并以直观的方式对模型参数或学习得到的表示进行说明。我们将现有的模型分为传统机器学习和深度学习两类,这样分类是因为我们能够从每个类别中提取一些类似的解释范例。
1. 传统机器学习解释
传统的机器学习流水线通常依赖于特征工程它将原始数据转换为更好地表示预测任务的特征。这些特征通常是可解释的,机器学习的作用是将特征表示映射到输出。我们考虑了一种简单有效的解释方法,称为特征重要性(feature importance),适用于大多数传统机器学习模型,它表明机器学习模型在进行决策时每个特征的贡献程度。
(1)模型无关解释:与模型无关的特征重要性广泛适用于各种机器学习模型。它将模型视为黑盒,并且不检查内部模型参数。
典型的方法是“置换特征重要性”,其核心思想是,通过对给定特征值置换后模型预测精度的变化进行计算,可以确定给定特征对模型整体性能的重要性。更具体地说,给定一个具有n个特征的预先训练模型和一个测试集,该模型在测试集上的平均预测得分为p,即基线精度。我们将测试集上的特征值重新排序,并在修改后的数据集上计算模型的平均预测得分。
每个特征迭代执行上述过程,最终可以分别得到n个特征的n个预测得分。然后,我们根据n个特征相对于基线精度p的得分下降程度来对其重要性进行排序。这种方法有几个优点:首先,我们不需要对人工特征进行归一化;其次,该方法可以推广到几乎所有以人工特征为输入的机器学习模型;最后,该策略在应用中被证明是稳健和有效的。
(2)模型相关解释:针对不同模型也存在特定的解释方法。模型相关解释方法通常通过检查内部模型的结构和参数来得到模型的解释。下面,我们将介绍针对两类机器学习模型计算特征的重要性。
广义线性模型(GLM)由一系列模型组成,这些模型是输入特征和模型参数的线性组合,然后输入到一些转换函数(通常是非线性的)构成的模型,如线性回归和逻辑回归。GLM的权重直接反映了特征的重要性,因此用户可以通过检查权重并将其可视化来了解模型的工作方式。然而,当不同的特征没有被适当地归一化且测量尺度变化时,通过权重进行模型解释不再可靠。此外,当特征维数过大时该方法所给出解释的可理解性会下降,这可能超出了人类的理解能力。
基于树的集成模型,如梯度提升算法、随机森林和XGBoost,通常人类是难以理解的。有几种方法可以测量每个特征的贡献度。第一种方法是计算在树分支中采用某特征时的精度提升。如果不为某个特征的分支添加额外分支,则可能存在一些错误分类的元素。在增加额外分支之后,会存在两个分支,使得每个分支都更准确。第二种方法测量特征覆盖率,即计算与一个特征相关的样本的相对数量。第三种方法是计算一个特征用于数据分割的次数。


2. DNN表征解释

DNNs不仅要研究从表征到输出的映射,而且还要从原始数据中进行表征学习。学习到的深层表征通常是人类无法解释的,因此对DNNs模型的解释主要集中在理解DNNs中间层神经元捕获的表征。在这里,我们介绍两类主要的DNN模型,即CNN和RNN的表征解释方法。
(1)CNN表征解释:针对CNN不同层上神秘表征的理解和解释吸引了越来越多的关注。在CNN表征解释的不同策略中,最为有效和广泛使用的策略是针对特定层上的神经元确定首选输人。该策略通常是通过激活最大化(AM)框架进行描述。从随机初始化图像开始,我们对图像进行优化,以最大化激活神经元。通过迭代优化,利用神经元响应值相对于图像的导数对图像做出调整。最后,对生成的图像进行可视化,就可以知道单个神经元在其感受野中探索的是什么。事实上,我们可以对任意神经元进行此类操作,从第一层神经元一直到最后一层输出神经元,以此来理解各层上的编码表示。
虽然框架很简单,但实际运用中却面临着一些挑战,其中最大的挑战是会产生奇怪的伪影。优化过程中可能会产生包含噪声和高频模式的不真实图像。由于图像搜索空间大,如果没有进行合适的正则化,即使有满足条件的图像激活神经元,图像也无法辨识。为了解决这一问题,需要利用自然图像先验知识对优化过程进行约束,以生成和自然图像类似的合成图像。一些研究者启发式地提出了一些人为先验,包括总变差范数、α范数和高斯模糊。此外,可以通过生成模型(如GAN或VAE)生成更为强大的自然图像先验,此类生成模型可将隐空间中的编码映射到图像空间。这些方法不是直接对图像进行优化,而是对隐空间编码进行优化,以找到能够激活指定神经元的图像。实验结果表明,由生成模型产生的先验信息显著改善了可视化效果。
模型可视化的结果揭示了CNN表征的一些有趣的性质。首先,神经网络在多个抽象层次上进行表征学习,从第一层到最后一层,逐渐从一般特征学到了任务相关特征。其次,神经元可以对存在语义关联的不同图像做出响应,展示了神经元具有多面性。注意,这种现象并不局限于高层神经元,所有层级的神经元都具有多面性,只是高层神经元比低层神经元更具多面性,即高层神经元对某类输入的变化具有更强的不变性。第三,CNN可以学到对象的分布式编码,可以使用基于部件的表示来描述对象,这些部件可以跨类别共享。
(2)RNN表征解释:在对CNN解释进行了大量研究后,揭示RNN表征(包括GRUs和LSTMS)所编码的抽象知识近年来也引起了人们浓厚的兴趣。语言模型常被用于对RNN表征学习的分析,语言模型的目标是根据前一个标识来预测下一个标识。研究表明RNN确实能学习到一些有用的表征。
首先,一些研究通过对能够最大化激活某个单元响应的实际输入标识进行分析,检测了RNN最后的隐藏层的表征,并对该层上不同单元的功能进行研究。研究表明,一些RNN表征单元能够捕获复杂的语言特性,如语法、语义和长期依赖关系。另外一项研究通过字符级语言模型对RNN的响应模式进行分析。该研究发现,虽然大多数神经单元很难找到特定的含义,但在RNN隐层表征中确实存在某些维度,能够关注于某些特定的语言结构,如引号、括号及文本中的行长度。在另外一项研究中,采用词级语言模型对RNN各个隐层单元所编码的语言特征进行分析。可视化结果表明,一些神经元主要对特定的语义类别产生响应,而另外一些神经单元则会对特定的语法类型或依赖关系产生响应。值得一提的是,一些隐层神经单元可以将响应值传递到后续的时间步,这就解释了为什么RNN可以学习长期依赖关系和复杂的语义特征。
其次,通过对不同隐藏层学习到的表征进行比对,发现RNN可以学习到对象的层次化表征。该研究表明,RNN表征与CNN表征之间存在相似之处。例如,采用多层LSTM构建的双向语言模型,分析此模型不同层上的表征可知,模型的下层捕获了上下文无关的语义信息,较高层次的LSTM表征则可对语义上下文进行编码。深度上下文表征层可以通过上下文进行词义消歧,因此可以用于需要考虑上下文的词义理解任务中。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“新冠疫苗之父”杨晓明被抓!个人履历曝光,评论区彻底失控!

“新冠疫苗之父”杨晓明被抓!个人履历曝光,评论区彻底失控!

古希腊掌管松饼的神
2024-04-28 09:10:08
三大运营商扛不住了,联通董事长正式宣布:半夜关闭5G基站

三大运营商扛不住了,联通董事长正式宣布:半夜关闭5G基站

爆角追踪
2024-04-29 17:15:46
失察、失控、失策、失职,住建、规划、发改委等相关部门难辞其咎

失察、失控、失策、失职,住建、规划、发改委等相关部门难辞其咎

娱乐圈见解说
2024-04-29 13:32:05
松下压缩机撤回日本,撕下国产空调遮羞布,核心技术在日企手里

松下压缩机撤回日本,撕下国产空调遮羞布,核心技术在日企手里

柏铭锐谈
2024-04-28 15:42:39
彻底倒向美囯?拒绝中方移民,驱离中方工人,中方大怒:永不合作

彻底倒向美囯?拒绝中方移民,驱离中方工人,中方大怒:永不合作

星辰故事屋
2024-04-27 19:04:44
大厂忙着踢皮球的时候也请看看脚下的人

大厂忙着踢皮球的时候也请看看脚下的人

关尔东
2024-04-29 00:13:21
马斯克来中国后!特斯拉中国官方的FSD购买页面描述由“稍后推出”改为“即将推出”

马斯克来中国后!特斯拉中国官方的FSD购买页面描述由“稍后推出”改为“即将推出”

和讯网
2024-04-29 17:03:03
问界M7三死事故发生后,遇难者家属居然被网暴了

问界M7三死事故发生后,遇难者家属居然被网暴了

顾礼先生
2024-04-29 14:28:13
哪吒宣布改名并发起投票,新名字合众却被网友调侃为“乌合之众”

哪吒宣布改名并发起投票,新名字合众却被网友调侃为“乌合之众”

映射生活的身影
2024-04-29 10:16:31
刚刚A股再爆猛料,央视新闻滚屏播报,2亿股民期盼的王炸它来了!

刚刚A股再爆猛料,央视新闻滚屏播报,2亿股民期盼的王炸它来了!

彩云的夕阳
2024-04-29 13:54:44
赌对了!员工持股3599万股,股价从5元拉到18元,已盈利4.68亿

赌对了!员工持股3599万股,股价从5元拉到18元,已盈利4.68亿

股海风云大作手
2024-04-29 15:28:13
003出海了!4月29日下午3点,网友实拍福建舰开动,开始海试?

003出海了!4月29日下午3点,网友实拍福建舰开动,开始海试?

不掉线电波
2024-04-29 17:57:05
马斯克访华成果显著!特斯拉已全面解除禁停禁行,但代价也不低

马斯克访华成果显著!特斯拉已全面解除禁停禁行,但代价也不低

做人要有态度
2024-04-29 12:04:58
全国密集通报,这些落马的地方党政“一把手”再被点名

全国密集通报,这些落马的地方党政“一把手”再被点名

新京报
2024-04-29 14:30:37
美拍下81架淘汰战机给乌?乌前线局势恶化,数十名乌克兰老人自费参战

美拍下81架淘汰战机给乌?乌前线局势恶化,数十名乌克兰老人自费参战

红星新闻
2024-04-29 17:42:23
韩媒:首尔有意申办2036年夏奥会,青岛也在申办城市行列

韩媒:首尔有意申办2036年夏奥会,青岛也在申办城市行列

直播吧
2024-04-29 12:22:19
最新!江西38万彩礼“觉醒姐”被扒与黑人合影,体制内工作疑撒谎

最新!江西38万彩礼“觉醒姐”被扒与黑人合影,体制内工作疑撒谎

科学发掘
2024-04-29 15:57:09
她真的很努力了!21岁女孩暴雨送外卖,不慎掉入水中离世

她真的很努力了!21岁女孩暴雨送外卖,不慎掉入水中离世

映射生活的身影
2024-04-29 16:30:27
美菲军事关系迅速升级,专家警告:美国希望菲律宾扮演挑事者

美菲军事关系迅速升级,专家警告:美国希望菲律宾扮演挑事者

澎湃新闻
2024-04-29 14:58:31
后续!问界M7车祸家属被网暴,家属:我死了3个亲人,质疑有错吗?

后续!问界M7车祸家属被网暴,家属:我死了3个亲人,质疑有错吗?

苗苗情感说
2024-04-29 14:54:51
2024-04-29 19:12:49
我是天边飘过一朵云
我是天边飘过一朵云
科技改变未来,未来生活更美好
903文章数 896关注度
往期回顾 全部

科技要闻

马斯克收获大礼,李彦宏梅开二度?

头条要闻

专家警告:美若将南海台海联动 或同时"出牌"牵制中国

头条要闻

专家警告:美若将南海台海联动 或同时"出牌"牵制中国

体育要闻

足球童话!执教16年,从业余联赛到德甲

娱乐要闻

田馥甄遭抵制,蔡依林却能稳稳捞金?

财经要闻

牛市,无需多言

汽车要闻

配置更丰富 静态体验2024款欧拉好猫

态度原创

本地
时尚
家居
艺术
公开课

本地新闻

食味印象 | 潍坊:碳水脑袋的人间乐园

今年已经不流行扮嫩了,看看这些气质型打扮,适合四十岁女人

家居要闻

光影之间 空间暖意打造生活律动

艺术要闻

共度北京108小时 北京当代2024“凝聚”全球36座城市100余家艺术机构

公开课

父亲年龄越大孩子越不聪明?

无障碍浏览 进入关怀版