sklearn的数据集

数据集划分

  • 训练集:训练模型
  • 测试集:评估模型
  • 数据集划分的API
    • from sklearn.model_selection import train_test_split
    • train_test_split(x,y,test_size,random_state)参数介绍
      • x:特征
      • y:目标
      • test_size:测试集的比例
      • random_state:打乱的随机种子
    • 返回值:训练特征,测试特征,训练目标,测试目标

数据集接口介绍

  • sklearn.datasets.load_*():获取小规模的数据集
  • 在这里插入图片描述
    # 数据集
    import sklearn.datasets as ds
    # 鸢尾花数据集
    iris = ds.load_iris()
    print(iris)
    # 样本数据的抽取
    feature = iris['data'] #特征数据
    target = iris['target'] #标签数据
    print(feature.shape)
    print(target.shape)
  • sklearn.datasets.fetch_*(date_home=None,subset):获取大规模的数据集
    • data_home表示数据集下载目录,None为默认值表示的是家目录/scikit_learn_data (自动创建该文件夹)下。需要从网络下载.subset为需要下载的数据集,可以为train,test,all

机器学习基础

  • 机器学习最终进行预测出来的结果其实都是通过相关的算法计算出来的结果
  • 算法是核心,数据时计算的基础
  • 找准定位:模型设计一般由算法设计工程师完成(博士、硕士们在做的事情),我们一般只需要做:
    • 学会分析问题,使用机器学习相关算法完成对应的需求
    • 掌握算法的基本思想,学会对不同问题选择对应的算法去解决
    • 学会利用框架和库解决问题

机器学习中的数据类型

  • 离散型数据
  • 连续型数据
  • 注意:连续型数据时有规律的,离散型数据是没有规律的

机器学习算法分类

  • 分类和回归问题
    • 分类算法基于的是【目标数据】为【离散型】数据
    • 回归算法基于的是【目标数据】为【连续型】数据

机器学习开发流程

  • 数据采集
  • 分析数据推断问题是回归问题还是分类问题
  • 数据的基本处理
    • 数据清洗
    • 合并
    • 级联
  • 特征工程处理
  • 选择合适的模型,进行训练
  • 模型的评估
  • 上线使用
Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐