网易首页 > 网易号 > 正文 申请入驻

NVIDIA 大讲堂 什么是 随机森林?

0
分享至

随机森林是一种监督式算法,使用由众多决策树组成的一种集成学习方法,输出是对问题最佳答案的共识。随机森林可用于分类或回归。

什么是随机森林?

随机森林是用于分类和回归的一种主流集成学习方法。

集成学习方法结合了多种机器学习 (ML) 算法,以获得更好的模型 – 应用于数据科学的群体智慧。此类学习方法基于这样一种概念:一群对问题领域知之有限的人集思广益,可以获得比一个知识丰富的人更好的解决方案。

随机森林是一组决策树,是几乎人人都熟悉的解决问题的比喻。决策树通过针对数据集元素,询问一系列回答是否的问题来得出答案。在下面的示例中,为了预测一个人的收入,决策会考虑变量(特征),例如此人是否有工作(是或否)以及此人是否有房子。在算法环境中,机器会不断搜索特征,以允许将一组中的观察结果按如下方式进行分割,即结果组之间尽可能不同,而每个不同子组的成员之间尽可能相似。

随机森林使用名为“bagging”的技术,通过数据集和特征的随机自助抽样样本并行构建完整的决策树。虽然决策树基于一组固定的特征,而且经常过拟合,但随机性对森林的成功至关重要。

随机性可确保单个树之间的相关性较低,从而减少偏差风险。大量树的存在也减少了过拟合问题,如果模型在训练数据中加入过多“噪声”并因此做出糟糕决策,这种问题就会出现。

使用随机森林模型,随着模型中不相关树的数量增加,做出正确预测的可能性也会增加。结果的质量更高,因为它们反映了大多数树做出的决策。此投票过程通过限制误差来保护每个树不互相伤害。即使有些树错误,也会有一些树正确,因此这组树集体朝正确的方向前行。虽然随机森林模型在考虑许多特征时可能会运行缓慢,但即使是使用有限数量特征的小模型也会产生非常好的结果。

随机森林的工作原理是什么?

随机森林中的每棵树在称为自助聚集 (bagging) 的过程中随机对训练数据子集进行抽样。该模型适合这些较小的数据集,并汇总预测结果。通过有放回抽样,可以重复使用同一数据的几个实例,结果就是,这些树不仅基于不同的数据集进行训练,而且还使用不同的特性做出决策。

图像来源:KDNuggets

用例

分类示例包括:

  1. 欺诈检测
  2. 垃圾邮件检测
  3. 文本情感分析
  4. 预测患者风险、败血症或癌症

回归示例包括:

  1. 预测欺诈数量
  2. 预测销售额

为何选择随机森林?

随机森林模型有五个主要优点:

  1. 非常适合回归和分类问题。回归中的输出变量是一个数字序列,例如某个街区的房价。分类问题的输出变量通常是一个单一答案,例如房屋的售价是否高于或低于要价。
  2. 可以处理缺失值并保持高准确性,即使由于 bagging 和有放回抽样而缺失大量数据时也是如此。
  3. 算法由于输出的是“多数规则”,使得模型几乎不可能过拟合。
  4. 该模型可以处理包含数千个输入变量的庞大数据集,因此成为降维的不错工具。
  5. 其算法可用于从训练数据集中识别非常重要的特征。

其也有一些缺点:

  1. 随机森林优于决策树,但其准确性低于 XGBoost 等梯度提升树集成。
  2. 随机森林包含大量树,因此速度比 XGBoost 慢。

梯度提升决策树

梯度提升决策树 (GBDT) 是一种决策树集成学习算法,类似于用于分类和回归的随机森林。随机森林和 GBDT 都构建了由多个决策树组成的模型。两者的区别在于重建和组合的方式。

GBDT 使用一种称为 boosting 的技术,以迭代方式训练一组浅层决策树,每次迭代都使用上一个模型的残差拟合下一个模型。最终得到的预测结果是所有树预测结果的加权总和。随机森林 bagging 可大幅减少差异和过拟合,而 GBDT boosting 则可减少偏差和欠拟合。

XGBoost(极端梯度提升)是 GBDT 的领先、可扩展的分布式变体。使用 XGBoost 时,树并行构建,而非顺序构建。GBoost 遵循按层生长策略,扫描梯度值并使用这些部分和来评估训练集中每个可分割点的分割质量。

XGBoost 因其广泛的用例、可移植性、多样化的语言支持以及云集成而广受欢迎。

与 XGBoost 相比,随机森林模型的准确性可能会因两个不同的误差来源(偏差和方差)而下降:

  • 梯度提升模型通过以低学习率进行多轮提升来消除偏差和方差。
  • 梯度提升模型超参数也有助于消除方差。
  • 随机森林模型使用树深度和树的数量消除偏差和方差。
  • 随机森林树可能需要比梯度提升树更深入。
  • 更多数据可减少偏差和方差。

NVIDIA GPU 加速的

随机森林、XGBOOST 和端到端数据科学

在架构方面,CPU 仅由几个具有大缓存内存的核心组成,一次只可以处理几个软件线程。相比之下,GPU 由数百个核心组成,可以同时处理数千个线程。

基于 CUDA-X AI 创建的 NVIDIA RAPIDS™ 开源软件库套件使您完全能够在 GPU 上执行端到端数据科学和分析流程。此套件依靠 NVIDIA CUDA 基元进行低级别计算优化,但通过用户友好型 Python 接口实现了 GPU 并行化和高带宽显存速度。

借助 RAPIDS GPU DataFrame,数据可以通过一个类似 Pandas 的接口加载到 GPU 上,然后用于各种连接的机器学习和图形分析算法,而无需离开 GPU。这种级别的互操作性可通过 Apache Arrow 等库实现,并且可加速端到端流程(从数据准备到机器学习,再到深度学习)。

RAPIDS 的机器学习算法和数学基元遵循熟悉的类似于 scikit-learn 的 API。单块 GPU 和大型数据中心部署均支持 XGBoost、随机森林等主流工具。针对大型数据集,相较于同等功效的 CPU,这些基于 GPU 的实施方案能够以 10 到 50 倍的速度更快地完成任务。

NVIDIA RAPIDS 团队与 DMLC XGBoost 组织建立了紧密的合作关系,而且 GPU 加速 XGBoost 现已包括无缝嵌入式 GPU 加速,可显著加快模型训练速度并提高准确性。对在配备 NVIDIA P100 加速器和 32 个英特尔至强 E5-2698 CPU 核心的系统上运行的 XGBoost 脚本进行的测试表明,相较于在输出质量相同的非 GPU 系统上运行相同的测试,速度提升了 4 倍。这一点尤为重要,因为数据科学家通常会多次运行 XGBoost,以便调整参数并找到出色的准确性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女生退机票问豆包亏600后把豆包告上法庭!这问答记录和网友神评把人笑疯

女生退机票问豆包亏600后把豆包告上法庭!这问答记录和网友神评把人笑疯

不二表姐
2026-05-15 22:37:09
黄仁勋身价千亿却40年不离婚,背后是这位工资比他高的全职太太

黄仁勋身价千亿却40年不离婚,背后是这位工资比他高的全职太太

观史搜寻着
2026-05-16 05:16:26
特朗普抵京当晚在机场执勤的礼兵震撼外网,详情披露:来自武警北京总队某部,哨兵离专机最近15米,担负特殊任务“夏不穿单、冬不穿棉”

特朗普抵京当晚在机场执勤的礼兵震撼外网,详情披露:来自武警北京总队某部,哨兵离专机最近15米,担负特殊任务“夏不穿单、冬不穿棉”

极目新闻
2026-05-16 08:58:39
特朗普现场怒怼BBC:你们就是那家被我起诉50亿美元的媒体?

特朗普现场怒怼BBC:你们就是那家被我起诉50亿美元的媒体?

爆角追踪
2026-05-16 12:37:40
U16国少4-2韩国U16夺邀请赛冠军,吴比乐双响,袁博涵2传1射

U16国少4-2韩国U16夺邀请赛冠军,吴比乐双响,袁博涵2传1射

懂球帝
2026-05-16 16:01:14
河南男子狂犬病发作去世,生前已打3针疫苗,为什么人还是走了

河南男子狂犬病发作去世,生前已打3针疫苗,为什么人还是走了

39健康网
2026-05-15 18:30:57
西决赛程公布:首战19日+若抢七31日 马刺15次分区决赛历史第三

西决赛程公布:首战19日+若抢七31日 马刺15次分区决赛历史第三

醉卧浮生
2026-05-16 12:37:02
森林狼出局后,NBA夺冠概率更新!骑士仅1.4%垫底马刺飙升至22.8%

森林狼出局后,NBA夺冠概率更新!骑士仅1.4%垫底马刺飙升至22.8%

锅子篮球
2026-05-16 14:23:00
广州暴雨,小孩连人带车被大水冲走,多名外卖小哥合力救人!

广州暴雨,小孩连人带车被大水冲走,多名外卖小哥合力救人!

南方都市报
2026-05-15 17:22:46
50℃的生存考验!印度正在经历夺命高温,这很不正常!

50℃的生存考验!印度正在经历夺命高温,这很不正常!

52赫兹实验室
2026-05-16 12:09:54
北京市发布暴雨蓝色预警

北京市发布暴雨蓝色预警

界面新闻
2026-05-16 16:01:46
后台最硬女神探,遇到破不了的案,直接冤枉路人死刑!

后台最硬女神探,遇到破不了的案,直接冤枉路人死刑!

莫地方
2026-05-16 01:40:03
韩国队世界杯名单:孙兴慜领衔,李刚仁、金玟哉在列,中超外援朴镇燮入选

韩国队世界杯名单:孙兴慜领衔,李刚仁、金玟哉在列,中超外援朴镇燮入选

懂球帝
2026-05-16 15:28:16
“女生盲道被撞反被骂”系摆拍,当事人为百万粉丝网红,账号已被封禁,薛之谦曾为她发声

“女生盲道被撞反被骂”系摆拍,当事人为百万粉丝网红,账号已被封禁,薛之谦曾为她发声

极目新闻
2026-05-16 10:31:18
这一刻我才明白:为什么男人都爱看篮球直播,而不愿看马拉松直播

这一刻我才明白:为什么男人都爱看篮球直播,而不愿看马拉松直播

马拉松跑步健身
2026-05-15 19:59:38
“新婚5个月被丈夫杀害的山西运城女教师案”最新进展

“新婚5个月被丈夫杀害的山西运城女教师案”最新进展

大风新闻
2026-05-16 08:48:02
美国听证会:成本6美元的黑鹰直升机屏幕旋钮,军火商卖4万美元!

美国听证会:成本6美元的黑鹰直升机屏幕旋钮,军火商卖4万美元!

爆角追踪
2026-05-16 12:09:32
海风:听到特朗普这句话,台湾当局该醒了

海风:听到特朗普这句话,台湾当局该醒了

环球网资讯
2026-05-16 17:37:05
“家用&性能”一把抓的风云T9L,实力评分:夯爆了!

“家用&性能”一把抓的风云T9L,实力评分:夯爆了!

大侠上车
2026-05-15 09:13:22
2026医保严查:住院晚上私自回家,报销直接作废

2026医保严查:住院晚上私自回家,报销直接作废

匹夫来搞笑
2026-05-16 11:16:14
2026-05-16 17:56:49
NVIDIA英伟达中国 incentive-icons
NVIDIA英伟达中国
英伟达(中国)官方账号
3520文章数 1447关注度
往期回顾 全部

科技要闻

涨的是车价,要的是老命

头条要闻

26岁警察因急性白血病引发脑出血 从确诊到离世仅11天

头条要闻

26岁警察因急性白血病引发脑出血 从确诊到离世仅11天

体育要闻

马刺2号,少年老成,这集看过?

娱乐要闻

张嘉译和老婆的差距让人心酸

财经要闻

造词狂魔贾跃亭

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

亲子
教育
艺术
手机
时尚

亲子要闻

《2026中国儿童生长与消化健康白皮书》发布,关注儿童健康

教育要闻

家长破除科学焦虑,孩子建立科学兴趣

艺术要闻

19位当代画家油画作品欣赏

手机要闻

W19周份额出炉,OPPO、vivo、小米等全没变位

从全网嘲到全网夸,鲁豫到底经历了什么?

无障碍浏览 进入关怀版