机器学习入门(概念、开发流程、sklearn库)
机器学习概述 人工智能概述 机器学习是人工智能的一个实现途径 深度学习是机器学习的一个方法发展而来 机器学习、深度学习能做些什么? 传统预测 图像识别 自然语言处理 什么是机器学习? 机器学习是从数据中子自动分析获得模型,并利用模型对未知数据进行预测。 数据 模型 预处 从历史数据当中获得规律?这些历史数据是怎样的格式? 数据集构
机器学习概述
人工智能概述
机器学习是人工智能的一个实现途径
深度学习是机器学习的一个方法发展而来
机器学习、深度学习能做些什么?
传统预测
图像识别
自然语言处理
什么是机器学习?
机器学习是从数据中子自动分析获得模型,并利用模型对未知数据进行预测。
数据
模型
预处
从历史数据当中获得规律?这些历史数据是怎样的格式?
数据集构成:特征值 + 目标值
注:
(1)对于每一行数据我们可以称之为样本
(2)有些数据集可以没有目标值
机器学习算法分类:
监督学习:
目标值:类别 - 分类问题
分类算法:K-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归
目标值:连续型的数据 - 回归问题
回归算法:线性回归、岭回归
定义:输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值(称为回归),或是输出是有限个离散值(称作分类)。
无监督学习:
目标值:无 - 无监督学习
定义:输入数据是由输入特征值所组成
聚类算法:k-means
机器学习开发流程
(1)获取数据
(2)数据处理
(3)特征工程
(4)机器学习算法训练 - 模型
(5)模型评估
(6)应用
学习框架和资料介绍
(1)算法是核心,数据与计算是基础
(2)找准定位
(3)怎么做?
1. 入门
2. 实战类书籍
3. 机器学习 - 周志华
统计学习方法 - 李航
深度学习 - “花书”
(4)机器学习库与框架
特征工程
数据集
可用数据集
学习阶段可以用的数据集:
1)sklearn
安装:
pip3 install Scikit-learn==0.91.1
安装好之后可以通过以下命令查看是否安装成功
import sklearn
注:安装scikit-learn需要Numpy,Scipy等库
scikit-learn数据集API介绍
sklearn.datasets
加载获取流行数据集
datasets.load_()
获取小规模数据集,数据包含在datasets里
datasets.fetch_(data_home=None)
获取大规模数据集,需要从网络上下载,函数的第一个参数是data_home,表示数据集下载的目录,默认是~/scikit_learn_data/
sklearn数据集返回值介绍
load和fetch返回的数据类型datasets.base.Bunch(字典格式)
data:特征数据数组,是[n_samples * n_features]的二维numpy.ndarray数组
target:标签数组,是n_samples的一维numpy.ndarray数组
DESCR:数据描述
feature_names:特征名,新闻数据,手写数字、回归数据集没有
target_names:标签名
数据集的划分
训练数据:用于训练,构建模型
测试数据:在模型检验时使用,用于评估模型是否有效
测试集 20%~30%
数据集划分api
sklearn,model_selection.train_test_split(arrays, *options)
x 数据集的特征值
y 数据集的标签值
test_size 测试集的大小,一遍为float
random_state 随机数种子,不同的种子会造成不同随机d采样结果。相同的种子采样结果相同。
return 训练集特征值(x_train),测试集特征值(x_test),训练集目标值(y_tarin),测试集目标值(y_test)
2)kaggle:
3)UCI
本节代码如下
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
def datasets_demo():
"""
sklearn数据集使用
:return:
"""
# 获取数据集
iris = load_iris()
print("鸢尾花数据集:\n", iris)
print("查看数据集描述:\n", iris["DESCR"])
print("查看特征值的名字:\n", iris.feature_names)
print("查看特征值:\n", iris.data, iris.data.shape)
# 数据集划分
x_train, x_test, y_train, y_test=train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)
print("训练集的特征值:\n", x_train, x_train.shape)
return None
if __name__== "__main__":
# 代码1:sklearn数据集使用
datasets_demo()
更多推荐
所有评论(0)