网易首页 > 网易号 > 正文 申请入驻

决策树算法的原理(接地气版)

0
分享至

↑↑点击上方蓝字,回复机器学习,N个G的惊喜

决策树( )是一类很常见很经典的机器学习算法,既可以作为分类算法也可以作为回归算法。同时也适合许多集成算法,如 , ,以后会逐一介绍。本篇介绍一下决策树算法的原理。

决策树算法不像前面介绍的SVM那样,散发着浓厚的数学气味。这个算法还是比较接地气的。

信息论基础

70年代,一个名为昆兰的大牛找到了信息论中的「熵」来度量决策树的决策选择过程。注意,信息论中的熵是香农提出的。昆兰只是将熵应用于决策树的人。

熵度量了事物的不确定性(可以联想化学里的熵,混乱程度),越不确定的事物,它的熵就越大。具体的,随机变量X的熵的表达式如下:

决策树构造

决策树的组成:

  • 根节点:第一个选择点

  • 非叶子节点与分支:中间过程

那么如何构造决策树呢?

「第一步,选择根节点」

问题来了,特征不唯一,选哪一个作根节点最优?

这就涉及到了衡量标准,一般而言,随着划分过程不断进行,我们希望节点的熵能够迅速地降低。因为随机变量的熵越大,随机变量的不确定性越大,代表纯度越低。所以希望节点的熵能够迅速降低,使得纯度不断增加。所以以「信息增益」作为衡量标准。

引入一个信息增益( )的概念。

「定义」:特征 对训练数据集 的信息增益 ,定义为集合 的经验熵 与特征 给定条件下 的经验条件熵 之差,即

信息增益也就度量了熵降低的程度。
以信息增益作为衡量标准的算法被称为ID3算法。

「第二步,选择子节点」

依然是采用信息增益的标准进行选择。

「第三步,何时停止」

其实这一步就涉及到剪枝,下文详解。

如果对这些概念还是有点模糊,可以结合下面的实例再思考思考。

实例

「首先,选择根节点」。一共有四个特征,所以根节点的选择有四种。

在我们的原始数据(14天)有9天打球,5天不大,所以此时的熵为:

当 时,
当 时,

根据数据, 取 , , 的概率分别为 ,
熵值计算(几个特征属性熵的加权求和):

信息增益:

同样的方式计算其它三个特征的信息增益:

四个特征中, 的增益最大,所以选择 作为根节点。
「接下来的子节点选择同上」

「何时停止?」
上文也说了,"何时停止"涉及到剪枝。为什么要剪枝?
决策树存在较大的过拟合风险,理论上,决策树可以将样本数据完全分开,但是这样就带来了非常大的过拟合风险,使得模型的泛化能力极差。剪枝和日常树木的修建是一个道理。这里介绍最常用的「预剪枝」,在构造决策树的过程中,提前停止。
具体的预剪枝策略有:

  • 限制深度,例如,只构造到两层就停止。

  • 限制叶子节点个数,例如,叶子节点个数超过某个阈值就停止
    等等

简单介绍一下集成学习( )。有两种类型,

  • Bagging :训练多个分类器,最后可采取投票机制选择最终结果。这里的分类器常常是决策树。代表算法是

  • Boosting:仍是训练多个分类器,将最后的结果加权求和,代表算法是 ,

这些算法在一些比赛中都是很常见的。

本篇主要介绍的ID3算法仍有一定缺陷,之后的文章会继续介绍。

编辑:tech小百科

https://www.bilibili.com/video/BV1Ps411V7px?p=6https://www.cnblogs.com/pinard/p/6050306.htmlhttps://divinerhjf.github.io/2019/05/24/shu-ju-wa-jue-jue-ce-shu/#toc-heading-8https://zh.wikipedia.org/wiki/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
6-4!迈阿密获4连胜 苏神戴帽率队逆转 梅西2助后伤退+径直离场

6-4!迈阿密获4连胜 苏神戴帽率队逆转 梅西2助后伤退+径直离场

我爱英超
2026-05-25 09:30:18
人生如戏全靠演技!张雪机车“控分”阳谋,把WSBK规则玩明白了

人生如戏全靠演技!张雪机车“控分”阳谋,把WSBK规则玩明白了

长江浊酒客
2026-05-24 17:30:03
普京失望而返,谈了二十年都没戏,中国这次要俄认清一个事实

普京失望而返,谈了二十年都没戏,中国这次要俄认清一个事实

阿库财经
2026-05-24 23:24:15
山姆黄芥末酱被人狂薅,有人接了三大袋,市场价25一斤

山姆黄芥末酱被人狂薅,有人接了三大袋,市场价25一斤

映射生活的身影
2026-05-23 21:53:05
医生表示:爱吃辣的人,癌症、心血管疾病、死亡率,都比同龄人低

医生表示:爱吃辣的人,癌症、心血管疾病、死亡率,都比同龄人低

读懂世界历史
2026-05-04 18:29:09
梅西本打算加盟曼城!但巴萨强留人后!瓜迪奥拉很崩溃!

梅西本打算加盟曼城!但巴萨强留人后!瓜迪奥拉很崩溃!

历史第一人梅西
2026-05-24 22:56:39
特朗普向大陆靠拢,解放军发声,不到24小时,美宣布对台军售暂停

特朗普向大陆靠拢,解放军发声,不到24小时,美宣布对台军售暂停

静儿家
2026-05-25 08:44:52
千古谜题破解!秦始皇陵千吨水银竟来自一个女人,古人手段太绝了

千古谜题破解!秦始皇陵千吨水银竟来自一个女人,古人手段太绝了

鹤羽说个事
2026-05-23 22:36:31
五支车队明年改用张雪摩托,宝马本田压力山大

五支车队明年改用张雪摩托,宝马本田压力山大

舟望停云
2026-05-25 08:27:51
姆巴佩再夺西甲金靴:连续8年称霸联赛射手榜,27岁狂轰425球

姆巴佩再夺西甲金靴:连续8年称霸联赛射手榜,27岁狂轰425球

星耀国际足坛
2026-05-24 21:07:21
成人片单!6部大尺度欧美爽片,高颜值大胆演绎,值得熬夜去看

成人片单!6部大尺度欧美爽片,高颜值大胆演绎,值得熬夜去看

得心电影
2026-05-25 09:55:06
道教为什么容不下出马仙?不是傲慢,是1800年前划下的一条红线

道教为什么容不下出马仙?不是傲慢,是1800年前划下的一条红线

户外阿崭
2026-05-23 13:31:29
喵生逆袭!从流浪三花猫到豫园“在编”IP,这只“喵掌柜”火了!

喵生逆袭!从流浪三花猫到豫园“在编”IP,这只“喵掌柜”火了!

上海黄浦
2026-05-15 14:01:21
吃他汀不能碰牛奶?多次警告:不止牛奶,这4物再馋也要忌嘴

吃他汀不能碰牛奶?多次警告:不止牛奶,这4物再馋也要忌嘴

岐黄传人孙大夫
2026-04-18 16:15:03
板桥水库溃坝:24万人一夜消逝,尘封28年,真相远比天灾残酷

板桥水库溃坝:24万人一夜消逝,尘封28年,真相远比天灾残酷

小玡说故事
2026-05-15 20:07:35
雅马哈破防!张雪机车戴脚镣照样虐,雅马哈车手:给我张雪我也赢

雅马哈破防!张雪机车戴脚镣照样虐,雅马哈车手:给我张雪我也赢

长江浊酒客
2026-05-24 19:30:03
邢台一别墅小区被举报有大量违建 官方:正梳理违建执法程序丨封面深镜

邢台一别墅小区被举报有大量违建 官方:正梳理违建执法程序丨封面深镜

封面新闻
2026-05-24 21:24:29
意甲大结局:罗马科莫进欧冠 米兰尤文踢欧联 39岁瓦尔迪随队降级

意甲大结局:罗马科莫进欧冠 米兰尤文踢欧联 39岁瓦尔迪随队降级

我爱英超
2026-05-25 06:11:34
10年麻将馆老板囗述:凡是爱打麻将的,没有一个人日子是过得好的

10年麻将馆老板囗述:凡是爱打麻将的,没有一个人日子是过得好的

小噎论事
2026-04-24 17:15:21
老燕子被前夫勒索了

老燕子被前夫勒索了

毒舌扒姨太
2026-05-24 22:45:44
2026-05-25 10:35:00
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3422文章数 11159关注度
往期回顾 全部

科技要闻

神舟二十三号航天员乘组顺利进驻“天宫”

头条要闻

骑马造势的车企原董事长落马 2个月前曾公开出席活动

头条要闻

骑马造势的车企原董事长落马 2个月前曾公开出席活动

体育要闻

唐斯发牌,大头逆袭:骑士跌向残忍夏季

娱乐要闻

王鹤棣掉粉超20万!代言和作品遭抵制

财经要闻

退市!33年“A股不死鸟”落幕

汽车要闻

国民家轿再上新 帝豪向上系列限时5.59万起

态度原创

数码
手机
房产
公开课
军事航空

数码要闻

Apple Watch用户福音 watchOS 27确认增强心率功能

手机要闻

果粉狂喜:iPhone配AirPods iOS 27更顺手

房产要闻

疯狂周末,海口楼市突然爆了!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄军出动“榛树”导弹袭击乌克兰

无障碍浏览 进入关怀版