网易首页 > 网易号 > 正文 申请入驻

自动化的机器学习:5个常用AutoML 框架介绍

0
分享至

AutoML 可以为预测建模问题自动找到数据准备、模型和模型超参数的最佳组合,本文整理了5个最常见且被熟知的开源AutoML 框架。

AutoML框架执行的任务可以被总结成以下几点:

  • 预处理和清理数据。
  • 选择并构建适当的特征。
  • 选择合适的模型。
  • 优化模型超参数。
  • 设计神经网络的拓扑结构(如果使用深度学习)。
  • 机器学习模型后处理。
  • 结果的可视化和展示。

在本文中,我们将介绍以下5 个开源 autoML 库或框架:

  • Auto-Sklearn
  • TPOT
  • Hyperopt Sklearn
  • Auto-Keras
  • H2O AutoML
1、Auto-Sklearn

Auto-sklearn 是一个开箱即用的自动化机器学习库。 auto-sklearn 以 scikit-learn 为基础,自动搜索正确的学习算法并优化其超参数。 通过元学习、贝叶斯优化和集成学习等搜索可以获得最佳的数据处理管道和模型。它可以处理大部分繁琐的工作,例如预处理和特征工程技术: One-Hot 编码、特征归一化、降维等。

安装:

#pip
pip install auto-sklearn
#conda
conda install -c conda-forge auto-sklearn

因为进行了大量的封装,所以使用的方法sklearn基本一样,以下是样例代码:

import sklearn.datasets
import sklearn.metrics
import autosklearn.regression
import matplotlib.pyplot as plt
X, y = sklearn.datasets.load_diabetes(return_X_y=True)
X_train, X_test, y_train, y_test = sklearn.model_selection.train_test_split(X, y, random_state=1)
automl = autosklearn.regression.AutoSklearnRegressor(
time_left_for_this_task=120,
per_run_time_limit=30,
tmp_folder='/tmp/autosklearn_regression_example_tmp',
)
automl.fit(X_train, y_train, dataset_name='diabetes')

2、TPOT

TPOT(Tree-based Pipeline Optimization Tool)是一个 Python 自动化机器学习工具,它使用遗传算法优化对机器学习的流程进行优化。它也是基于 Scikit-Learn 提供的方法进行数据转换和机器学习模型的构建,但是它使用遗传算法编程进行随机和全局搜索。以下是TPOT 搜索流程:

安装:

#pip
pip insall tpot
#conda
conda install -c conda-forge tpot

样例代码:

from tpot import TPOTClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
import numpy as np
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data.astype(np.float64),
iris.target.astype(np.float64), train_size=0.75, test_size=0.25, random_state=42)
tpot = TPOTClassifier(generations=5, population_size=50, verbosity=2, random_state=42)
tpot.fit(X_train, y_train)
print(tpot.score(X_test, y_test))
tpot.export('tpot_iris_pipeline.py')

3、HyperOpt-Sklearn:

HyperOpt-Sklearn 是 HyperOpt 的包装器,可以将 AutoML 和 HyperOpt 与 Scikit-Learn 进行整合,这个库包含了数据预处理的转换和分类、回归算法模型。文档中介绍说:它专为具有数百个参数的模型进行大规模优化而设计 并允许跨多核和多台机器扩展优化过程。

安装:

pip install hyperopt

样例代码:

from pandas import read_csv
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error
from hpsklearn import HyperoptEstimator
from hpsklearn import any_regressor
from hpsklearn import any_preprocessing
from hyperopt import tpe
# load dataset
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data.astype(np.float64),
iris.target.astype(np.float64), train_size=0.75, test_size=0.25, random_state=42)
model = HyperoptEstimator(regressor=any_regressor('reg'), preprocessing=any_preprocessing('pre'), loss_fn=mean_absolute_error, algo=tpe.suggest, max_evals=50, trial_timeout=30)
model.fit(X_train, y_train)
# summarize performance
mae = model.score(X_test, y_test)
print("MAE: %.3f" % mae)
# summarize the best model
print(model.best_model())

4、AutoKeras

AutoKeras 是一个基于 Keras 的 AutoML 系统,只需几行代码就可以实现神经架构搜索(NAS)的强大功能。 它由德克萨斯 A&M 大学的 DATA 实验室开发,以 TensorFlow的tf.keras API 和Keras为基础进行实现 。

AutoKeras 可以支持不同的任务,例如图像分类、结构化数据分类或回归等。

安装:

pip install autokeras

样例代码:

import numpy as np
import tensorflow as tf
from tensorflow.keras.datasets import mnist
import autokeras as ak
#Load dataset
(x_train, y_train), (x_test, y_test) = mnist.load_data()
print(x_train.shape) # (60000, 28, 28)
print(y_train.shape) # (60000,)
print(y_train[:3]) # array([7, 2, 1], dtype=uint8)
# Initialize the image classifier.
clf = ak.ImageClassifier(overwrite=True, max_trials=1)
# Feed the image classifier with training data.
clf.fit(x_train, y_train, epochs=10)
# Predict with the best model.
predicted_y = clf.predict(x_test)
print(predicted_y)
# Evaluate the best model with testing data.
print(clf.evaluate(x_test, y_test))

5、H2O AutoML:

H2O 的 AutoML 可用于在用户指定的时间限制内自动训练和调整许多模型。

H2O 提供了许多适用于 AutoML 对象(模型组)以及单个模型的可解释性方法。 可以自动生成解释,并提供一个简单的界面来探索和解释 AutoML 模型。

安装:

pip insall h2o

H2O可以更详细的说是一个分布式的机器学习平台,所以就需要建立H2O的集群,这部分的代码是使用的java开发的,就需要安装jdk的支持。

在安装完成JAVA后,并且环境变量设置了java路径的情况下在cmd执行以下命令:

java -jar path_to/h2o.jar

就可以启动H2O的集群,就可以通过Web界面进行操作,如果想使用Python代码编写,可以使用以下示例

import h2o
h2o.init()
from h2o.automl import H2OAutoML
churn_df = h2o.import_file('https://raw.githubusercontent.com/srivatsan88/YouTubeLI/master/dataset/WA_Fn-UseC_-Telco-Customer-Churn.csv')
churn_df.types
churn_df.describe()
churn_train,churn_test,churn_valid = churn_df.split_frame(ratios=[.7, .15])
churn_train
y = "Churn"
x = churn_df.columns
x.remove(y)
x.remove("customerID")
aml = H2OAutoML(max_models = 10, seed = 10, exclude_algos = ["StackedEnsemble", "DeepLearning"], verbosity="info", nfolds=0)
!nvidia-smi
aml.train(x = x, y = y, training_frame = churn_train, validation_frame=churn_valid)
lb = aml.leaderboard
lb.head()
churn_pred=aml.leader.predict(churn_test)
churn_pred.head()
aml.leader.model_performance(churn_test)
model_ids = list(aml.leaderboard['model_id'].as_data_frame().iloc[:,0])
#se = h2o.get_model([mid for mid in model_ids if "StackedEnsemble_AllModels" in mid][0])
#metalearner = h2o.get_model(se.metalearner()['name'])
model_ids
h2o.get_model([mid for mid in model_ids if "XGBoost" in mid][0])
out = h2o.get_model([mid for mid in model_ids if "XGBoost" in mid][0])
out.params
out.convert_H2OXGBoostParams_2_XGBoostParams()
out
out_gbm = h2o.get_model([mid for mid in model_ids if "GBM" in mid][0])
out.confusion_matrix()
out.varimp_plot()
aml.leader.download_mojo(path = "./")

总结

在本文中,我们总结了 5 个 AutoML 库以及它如何检查机器学习进行任务的自动化,例如数据预处理、超参数调整、模型选择和评估。除了这5个常见的库以外还有一些其他 AutoML 库,例如 AutoGluon、MLBoX、TransmogrifAI、Auto -WEKA、AdaNet、MLjar、TransmogrifAI、Azure Machine Learning、Ludwig等。

https://www.overfit.cn/post/a5f1160b23ad4fea914ed394254f845a

作者:Abonia Sojasingarayar

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大暴雨+冰雹+10级大风!东莞五一假泡汤了…

大暴雨+冰雹+10级大风!东莞五一假泡汤了…

我们的东莞
2024-04-30 21:11:39
先礼后兵4:为妍姐办事,王瑞如何做

先礼后兵4:为妍姐办事,王瑞如何做

金昔说故事
2024-04-30 20:45:54
广州女子商场跳楼砸人后续!官方公布其真实身份:52岁、为情所困

广州女子商场跳楼砸人后续!官方公布其真实身份:52岁、为情所困

洛洛女巫
2024-04-29 12:19:54
有没有可能,我们真的需要物理意义上的电子伟哥

有没有可能,我们真的需要物理意义上的电子伟哥

游戏茶馆
2024-04-29 18:48:19
中美古巴导弹危机2.0?中国比苏联还棋高一着,美防长紧急来电

中美古巴导弹危机2.0?中国比苏联还棋高一着,美防长紧急来电

闫树军论评
2024-04-29 13:51:01
远征军威武!国安球迷在泰达足球场内打出“国安”字样TIFO

远征军威武!国安球迷在泰达足球场内打出“国安”字样TIFO

直播吧
2024-04-30 19:46:13
故事:我在阿富汗外派,掀开了一位穆斯林少女的面纱,她非我不嫁

故事:我在阿富汗外派,掀开了一位穆斯林少女的面纱,她非我不嫁

潮河讲堂
2024-04-24 17:09:26
布林肯在中国遭BBC女记者连怼:你们要求中国停止出口零部件,自己却向以色列提供武器?

布林肯在中国遭BBC女记者连怼:你们要求中国停止出口零部件,自己却向以色列提供武器?

国际在线
2024-04-28 14:52:26
30年后再拍三级片,她可真敢啊

30年后再拍三级片,她可真敢啊

年代回忆
2024-04-24 20:14:06
一看就很“穷”的中年女人,身上有这三个特征,很明显

一看就很“穷”的中年女人,身上有这三个特征,很明显

龙可爱生活
2024-04-30 00:29:12
女子摆摊被城管抢走钱盒,官方回应:误以为是调料盒。评论区沦陷

女子摆摊被城管抢走钱盒,官方回应:误以为是调料盒。评论区沦陷

臨堃视野
2024-04-29 13:26:29
以媒称以方已传达停火谈判最新提议 预计哈马斯将在48小时内答复

以媒称以方已传达停火谈判最新提议 预计哈马斯将在48小时内答复

财联社
2024-04-28 03:11:09
击败勒沃库森,赢得欧联杯冠军!德罗西要证明自己比穆里尼奥强

击败勒沃库森,赢得欧联杯冠军!德罗西要证明自己比穆里尼奥强

涛哥聊球
2024-04-30 17:44:39
张平化的紧急报告,促使华国锋下决心:不能坐以待毙

张平化的紧急报告,促使华国锋下决心:不能坐以待毙

文史茶馆2020
2024-04-30 20:04:26
“去了一趟西藏,睡了100个女人”:伪朝圣,榨干了多少人!

“去了一趟西藏,睡了100个女人”:伪朝圣,榨干了多少人!

我是娱有理
2024-04-30 07:20:49
西方突然发现不对劲:中国加紧增加战略储备,是在做最坏打算?

西方突然发现不对劲:中国加紧增加战略储备,是在做最坏打算?

三分亮剑
2024-04-30 19:16:04
重磅!英超确认新规!曼联大清洗

重磅!英超确认新规!曼联大清洗

足球大号
2024-04-30 10:56:33
伊朗一场导弹雨,同时炸醒3个国家:若来的是中国导弹将毫无胜算

伊朗一场导弹雨,同时炸醒3个国家:若来的是中国导弹将毫无胜算

娱乐圈小胡椒
2024-04-29 10:49:36
58岁的关咏荷,这面容保持得太夸张了吧? 亮点是17岁的大女儿,

58岁的关咏荷,这面容保持得太夸张了吧? 亮点是17岁的大女儿,

娱乐的小灶
2024-04-28 16:25:08
“21万科06”跌超37%,盘中临时停牌

“21万科06”跌超37%,盘中临时停牌

每日经济新闻
2024-04-30 13:51:18
2024-04-30 22:42:44
deephub
deephub
CV NLP和数据挖掘知识
1325文章数 1413关注度
往期回顾 全部

科技要闻

华为一季度营收1784.5亿 净利196.5亿

头条要闻

外交部回应"马克龙和冯德莱恩将同中国元首在法会面"

头条要闻

外交部回应"马克龙和冯德莱恩将同中国元首在法会面"

体育要闻

穆雷,绝杀了一个时代

娱乐要闻

黄子韬被曝求婚徐艺洋 大量亲密照曝光

财经要闻

中共中央政治局:要灵活运用利率和存款准备金率等工具

汽车要闻

越野老炮最爱 哈弗新H9新增2.4T柴油机

态度原创

本地
家居
时尚
艺术
公开课

本地新闻

食味印象 | 潍坊:碳水脑袋的人间乐园

家居要闻

心之所栖 黑白灰色系打造设计专属感

岁月不败美人,姐姐们的50岁也太好看了

艺术要闻

用耳朵看展览?西岸美术馆最新特展关注声音艺术

公开课

父亲年龄越大孩子越不聪明?

无障碍浏览 进入关怀版