网易首页 > 网易号 > 正文 申请入驻

Python 第三方库:scikit-learn(机器学习工具箱)

0
分享至

scikit-learn 是 Python 生态中最流行的机器学习库之一,提供丰富的算法、工具与接口,用于分类、回归、聚类、降维、模型选择与预处理等任务。

它建立在 NumPy、SciPy 和 matplotlib 之上,具有高性能、易用性和统一 API 设计,是学术研究、工程项目和数据科学的首选库之一。

安装 :

安装时需确保已安装 numpy、scipy,推荐使用最新版本的 Python 3.x。

pip install scikit-learn

常见应用场景:

(1)监督学习

分类(Classification)、回归(Regression),例如预测用户购买行为、房价、疾病诊断等。

(2)无监督学习

聚类(Clustering)、降维(Dimensionality Reduction),例如市场细分、图像压缩、特征提取。

(3)模型选择与评估

交叉验证、网格搜索(Grid Search)、评分指标等。

(4)数据预处理与特征工程

缩放、标准化、编码、缺失值处理等。

(5)管道(Pipeline)机制

可将数据预处理与模型训练组合成统一流程,便于复现与部署。

◆ ◆

核心概念

1、Estimator(估计器)

Estimator 是 scikit-learn 中的核心接口,用于实现数据学习与预测。

包括分类器(Classifier)、回归器(Regressor)、聚类器(Clusterer)等。

核心方法:

.fit(X, y):训练模型

.predict(X):预测输出

.transform(X):数据变换(用于预处理或降维)

2、Transformer(转换器)

对数据进行预处理或特征转换,如 StandardScaler、PCA。

核心方法:

.fit(X, y=None):学习参数

.transform(X):应用转换

.fit_transform(X, y=None):拟合并转换

3、Pipeline(管道)

将一系列转换器和最终估计器串联,形成数据处理和建模的完整流程。

4、Model Selection(模型选择)

提供交叉验证、网格搜索、评分评估方法,如 train_test_split、GridSearchCV、cross_val_score。

5、Metrics(评估指标)

用于模型性能评估,包括分类准确率、F1-score、回归均方误差、R² 等。

◆ ◆

应用举例

例 1:分类任务(鸢尾花数据集)

print("Accuracy:", accuracy_score(y_test, y_pred))

例 2:回归任务(波士顿房价)

print("MSE:", mean_squared_error(y_test, y_pred))

例 3:数据标准化与管道

print("Pipeline Accuracy:", pipe.score(X_test, y_test))

例 4:交叉验证

print("Cross-validation scores:", scores)

例 5:网格搜索优化超参数

print("Best parameters:", grid.best_params_)

◆ ◆

常用函数与类速览

sklearn.model_selection.train_test_split(*arrays, test_size=None, train_size=None, random_state=None)

拆分数据为训练集与测试集。

参数

arrays:数据集特征和标签(如 X, y)。

test_size:测试集比例或样本数。

train_size:训练集比例或样本数。

random_state:随机种子。

返回:X_train, X_test, y_train, y_test。

sklearn.ensemble.RandomForestClassifier(n_estimators=100, random_state=None)

随机森林分类器。

参数

n_estimators:树的数量。

random_state:随机种子。

返回:RandomForestClassifier 实例。

sklearn.linear_model.LinearRegression()

线性回归模型。

返回:LinearRegression 实例。

sklearn.pipeline.Pipeline(steps)

构建管道。

参数

steps:列表,每个元素为 (name, transformer/estimator)。

返回:Pipeline 对象。

sklearn.model_selection.GridSearchCV(estimator, param_grid, cv=5)

网格搜索与交叉验证。

参数

estimator:基础模型。

param_grid:参数字典。

cv:交叉验证折数。

返回:GridSearchCV 实例。

sklearn.metrics.accuracy_score(y_true, y_pred)

计算分类准确率。

参数

y_true:真实标签。

y_pred:预测标签。

返回:浮点数(准确率)。

小结

scikit-learn 提供了完整且统一的机器学习接口,涵盖数据预处理、算法模型、评估与优化。无论是入门数据科学、教学实验,还是构建生产级机器学习系统,它都是 Python 中不可或缺的工具。


点赞有美意,赞赏是鼓励

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
火箭3人20+大胜送奇才10连败垫底 杜兰特23+5+4申京16+13+6

火箭3人20+大胜送奇才10连败垫底 杜兰特23+5+4申京16+13+6

醉卧浮生
2025-11-13 11:22:20
特朗普送叙政权领导人自产香水,对其妻子开玩笑被批“缺乏外交礼仪”

特朗普送叙政权领导人自产香水,对其妻子开玩笑被批“缺乏外交礼仪”

新京报
2025-11-12 23:32:45
震惊硅谷!37岁华裔理工男靠“喂数据”身家1200亿,成最年轻富豪

震惊硅谷!37岁华裔理工男靠“喂数据”身家1200亿,成最年轻富豪

青眼财经
2025-11-12 14:42:01
曾主任抛媚眼照被挖出!明目皓齿很调皮,网友:真的好迷人

曾主任抛媚眼照被挖出!明目皓齿很调皮,网友:真的好迷人

阿纂看事
2025-11-12 15:42:36
外媒:特朗普威胁诉讼后,斯塔默呼吁BBC“整顿”

外媒:特朗普威胁诉讼后,斯塔默呼吁BBC“整顿”

参考消息
2025-11-13 11:33:07
死里逃生—200名躲藏在拉法隧道内的哈马斯恐怖分子将被驱逐出境

死里逃生—200名躲藏在拉法隧道内的哈马斯恐怖分子将被驱逐出境

老王说正义
2025-11-13 00:04:03
实探张家界荒野求生选手“苗王”的庇护所:堆着大量猕猴桃等野果,一个多月他只瘦了10多斤

实探张家界荒野求生选手“苗王”的庇护所:堆着大量猕猴桃等野果,一个多月他只瘦了10多斤

极目新闻
2025-11-12 21:49:34
多地政府主要领导调整!原市长升任市委书记后,他接任

多地政府主要领导调整!原市长升任市委书记后,他接任

鲁中晨报
2025-11-13 10:31:07
曾主任的运动照被扒出!笑容灿烂很有韵味,网友:挺阳光的人

曾主任的运动照被扒出!笑容灿烂很有韵味,网友:挺阳光的人

鋭娱之乐
2025-11-13 00:45:03
跟老人沟通最有效的方法是啥?网友:年轻人学会无病呻吟很重要

跟老人沟通最有效的方法是啥?网友:年轻人学会无病呻吟很重要

解读热点事件
2025-11-11 00:15:03
通用汽车下令:供应链全面撤离中国!

通用汽车下令:供应链全面撤离中国!

现代春秋
2025-11-13 02:38:43
“南朝四百八十寺之一”张家港永庆寺起火!当地文旅局:失火主体文昌阁系2008年新建仿古建筑,损失正在统计

“南朝四百八十寺之一”张家港永庆寺起火!当地文旅局:失火主体文昌阁系2008年新建仿古建筑,损失正在统计

红星新闻
2025-11-12 18:31:11
父母妻儿五人被害,男子再发声:10岁儿子本躲过一劫外出求助被杀,案发当天自己被凶手儿子拉黑

父母妻儿五人被害,男子再发声:10岁儿子本躲过一劫外出求助被杀,案发当天自己被凶手儿子拉黑

极目新闻
2025-11-12 22:59:10
花680万元通过链家买房遇争议 中介偷录与买家通话发卖家 房管局:存在服务瑕疵 链家回应

花680万元通过链家买房遇争议 中介偷录与买家通话发卖家 房管局:存在服务瑕疵 链家回应

红星新闻
2025-11-13 13:02:28
男子结婚找老同学订8箱五粮液,没喝完按原价退6箱,老同学:不退

男子结婚找老同学订8箱五粮液,没喝完按原价退6箱,老同学:不退

一月爱八月
2025-11-11 20:02:56
外资重启“大撤退”?

外资重启“大撤退”?

美第奇效应
2025-11-13 01:05:51
孙杨被取消成绩

孙杨被取消成绩

新京报政事儿
2025-11-12 21:28:58
里子面子都没了!邹市明赔光两亿后,冉莹颖亲手撕碎他最后的体面

里子面子都没了!邹市明赔光两亿后,冉莹颖亲手撕碎他最后的体面

枫尘余往逝
2025-11-11 02:03:42
持续发酵!殴打93岁母亲的逆子个人信息曝光,全网要求严惩

持续发酵!殴打93岁母亲的逆子个人信息曝光,全网要求严惩

鋭娱之乐
2025-11-12 14:12:43
库里46+5+5单节22分勇士逆转马刺 文班31+15+10卡斯尔23+10+10

库里46+5+5单节22分勇士逆转马刺 文班31+15+10卡斯尔23+10+10

醉卧浮生
2025-11-13 11:39:45
2025-11-13 13:56:49
MediaTea
MediaTea
专业的数字媒体、新媒体技术
1582文章数 64关注度
往期回顾 全部

科技要闻

深夜重磅!GPT-5.1发布,奥特曼大谈情商

头条要闻

银行取4万被盘问律师:我等了半小时反诈中心无人出警

头条要闻

银行取4万被盘问律师:我等了半小时反诈中心无人出警

体育要闻

保罗,看看你对马刺干的好事!

娱乐要闻

一场演唱会,戳穿岳云鹏圈中地位

财经要闻

源峰25亿赌局!汉堡王中国"卖身"求生

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

游戏
本地
数码
时尚
公开课

6分!IGN评《燕云》国际服:武侠乐园 尚有潜力

本地新闻

云游安徽 | 凌滩玉魄淬千年,诗意钢城马鞍山

数码要闻

曝华为Mate 80 Pro Max配双层OLED屏幕 RS屏幕更顶!

降温应该穿什么衣服?看看这些穿搭就有灵感,简洁自然又舒适

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版