【机器学习】笔记 3、sklearn的数据集

sklearn的数据集数据集划分训练集：训练模型测试集：评估模型数据集划分的APIfrom sklearn.model_selection import train_test_splittrain_test_split(x,y,test_size,random_state)参数介绍x:特征y：目标test_size：测试集的比例random_state：打乱的随机种子返回值：训练特征，测试特征，训

若小鱼

412人浏览 · 2021-08-06 15:03:58

若小鱼 · 2021-08-06 15:03:58 发布

sklearn的数据集

数据集划分

训练集：训练模型
测试集：评估模型
数据集划分的API
- from sklearn.model_selection import train_test_split
- train_test_split(x,y,test_size,random_state)参数介绍
  - x:特征
  - y：目标
  - test_size：测试集的比例
  - random_state：打乱的随机种子
- 返回值：训练特征，测试特征，训练目标，测试目标

数据集接口介绍

sklearn.datasets.load_*():获取小规模的数据集

    # 数据集
    import sklearn.datasets as ds
    # 鸢尾花数据集
    iris = ds.load_iris()
    print(iris)
    # 样本数据的抽取
    feature = iris['data'] #特征数据
    target = iris['target'] #标签数据
    print(feature.shape)
    print(target.shape)

sklearn.datasets.fetch_*(date_home=None,subset):获取大规模的数据集
- data_home表示数据集下载目录，None为默认值表示的是家目录/scikit_learn_data （自动创建该文件夹）下。需要从网络下载.subset为需要下载的数据集，可以为train，test，all

机器学习基础

机器学习最终进行预测出来的结果其实都是通过相关的算法计算出来的结果
算法是核心，数据时计算的基础
找准定位：模型设计一般由算法设计工程师完成（博士、硕士们在做的事情），我们一般只需要做：
- 学会分析问题，使用机器学习相关算法完成对应的需求
- 掌握算法的基本思想，学会对不同问题选择对应的算法去解决
- 学会利用框架和库解决问题