scikit-learn 的设计

scikit-learn 的设计1 核心API Core API1.1 Estimators1.2 Predictors1.3 Transformers2高级API Advanced API2.1 Meta-estimators2.2 Pipelines and feature unions3.3 Model selection1 核心API Core API所有 scikit-learn 对象都

小何才露尖尖角

424人浏览 · 2022-02-22 22:50:01

小何才露尖尖角 · 2022-02-22 22:50:01 发布

scikit-learn 的设计

1 核心API Core API
2 高级API Advanced API

1 核心API Core API

所有 scikit-learn 对象都有三个基本的接口：Estimators， Predictors 和 Transformers

1.1 Estimators

Estimators 的初始化和学习数据的过程是分开的，

初始化通过为模型公共属性赋值超参数（hyper-parameter）实现，
为便于使用，scikit-learn 为每个超参数都设置了默认值

模型学习通过 fit 方式执行，Estimators 学习到的参数作为公共属性暴露出来（如：coef_ 名字带短划线后缀），Estimators 返回其本身

因此，一个对象既是 Estimators 又是模型

from sklearn.linear_model import LogisticRegression

# 模型初始化
clf = LogisticRegression(penalty='l1')
# 模型学习
clf.fit(X_train, y_train)

1.2 Predictors

通过增加 predict 方法扩展了 estimator 为 predictor ，学习到参数的 estimator 可以输入数组 X_test 获得输出结果，

y_pred = clf.predict(X_test)

非监督方法也可以使用 predict 方法，如 kmeans

from sklearn.cluster import KMens

km = KMens(n_clusters=10)
km.fit(X_train)
clust_pred = km.predict(X_test)

predictors 也实现了一些方法评估预测结果的置信度，
一些 predictors 实现 predict_proba 方法返回类别可能性
predictors 提供 score 方法用于评估结果

1.3 Transformers

Transformers 支持在预处理中进行特征选择，特征提取，特征降维

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)

在实践中，相同的预处理方法也需要用于测试集中

X_test = scaler.transform(X_test)

因为 fit 方法返回 estimator 本身，可以使用链式操作

X_train = StrandarScaler().fit(X_train).transform(X_train)

更进一步，每一个 transformer 都提供了相当于 fit(X_train).transform(X_train) 的 fit_transform(X_train) 方法

2 高级API Advanced API

2.1 Meta-estimators

一些算法可以将其它算法作为参数，如集成学习中（决策树）、多分类、多标签分类

from sklearn.multiclass import OneVsOneClassifier

ovo_lr = OneVsOneClassifier(LogisticRegression(penalty='l1'))

2.2 Pipelines and feature unions

estimator 可以由多个基础的 estimator 组合而成，

pipeline 根据最后一个 estimator 决定其自身为 predictor 或 transformer

FeatureUnion 连接多个 transformers 的输出作为一个结果

from sklearn.pipline import FeatureUnion, Pipeline
from sklearn.decomposition import PCA, KernelPCA
from sklearn.feature_selection import SlectKBest

union = FeatureUnion([("pca", PCA()), ("kpca",KernelPCA(kernel="rbf"))])

Pipeline([("feat_union", union),
			("feat_sel", SelectKBest(k=10)),
			("log_reg", LogisticRegression(penalty="l2"))
		]).fit(X_train, y_train).predict(X_test)

3.3 Model selection

模型选择由两个 meta-estimators 支持：GridSearchCV 和 RandomizedSearchCV

它们将输入模型作为待优化的模型，输入模型的超参数需要优化

from sklearn.grid_search import GridSearchCV
from sklearn.svm import SVC

param_grid = [
{"kernel": ["linear"], "C":[1, 10, 100, 1000]},
{"kernel": ["rbf"], "C":[1, 10, 100, 1000], "gamma":[0.001, 0.0001]},
]
clf = GridSearchCV(SVC(), param_grid, scoring="f1", cv=10)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

通过 best_estimator_ 获取最佳模型

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生