第一章——机器学习基础

1.1 何为机器学习

1.1.1 机器学习定义

  • 机器学习就是把无序的数据转换成有用的信息。

  • 通过对数据的建模,可以预测或分类未知的数据。

1.1.2 为什么我们需要机器学习

  • 现实世界中存在着很多例子,我们无法为之建立精确的数学模型,而为了解决这类问题,我们就需要统计学工具。(机器学习中用到了统计学知识)

1.2 关键术语

  • 特征:通常是训练样本集的列,它们是独立测量得到的结果。多个特征联系在一起共同组成一个训练样本。
  • 实例:具有相关特征的一个具体的对象。
  • 目标变量:就是最后得到的结果。
  • 标称型目标变量:标称型目标变量的结果只在有限目标集中取值,比如真与假。
  • 数值型(连续型)目标变量:数值型目标变量则可以从无限的数值集合中取值。
  • 训练数据:当机器学习程序开始运行时,使用训练样本集作为算法的输入。
  • 测试数据:训练完成之后输入测试样本(不提供测试样本的目标变量),由程序决定样本属于哪个类别。

1.3 机器学习的主要任务

1.3.1 监督学习

监督学习:监督学习就是最常见的分类问题,通过已有的训练样本去训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的。

  • 回归问题:给出一系列数据然后预测任意想要的数据。比如给出了一系列的房屋面积-价格数据,根据这些数据来预测任意面积的房屋价格。
  • 分类问题:根据数据预测被预测对象属于哪个分类。比如垃圾邮件分类。

1.3.2 无监督学习

无监督学习:非监督学习就是不告诉计算机怎么做,而让计算机自己去学习怎样做事情。

  • 聚类:将数据集合分成由类似的对象组成的多个类的过程被称为聚类。
  • 密度估计:将寻找描述数据统计值的过程称之为密度估计。

1.4 如何选择合适的算法

请添加图片描述

1.5 开发机器学习应用程序的步骤

①收集数据

Kaggle数据集:https://www.kaggle.com/datasets

Amazon数据集:https://registry.opendata.aws/

UCI数据集:http://archive.ics.uci.edu/ml/index.php

微软数据集:https://msropendata.com/

②准备输入数据

③分析输入数据:此步骤主要是人工分析以前得到的数据,确保数据集中没有垃圾数据。如果信任数据,可以跳过此步骤。

④训练算法:无监督学习算法不需要训练算法。

⑤测试算法

⑥使用算法

参考

  • 深度之眼机器学习实战课程 https://www.bilibili.com/video/BV1y4411g7ia?p=2
  • 机器学习两种方法——监督学习和无监督学习(通俗理解)https://blog.csdn.net/zb1165048017/article/details/48579677?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522164300984916780265438415%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=164300984916780265438415&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2alltop_positive~default-1-48579677.first_rank_v2_pc_rank_v29&utm_term=++++++++++++++++%E7%9B%91%E7%9D%A3%E5%AD%A6%E4%B9%A0%E5%92%8C%E6%97%A0%E7%9B%91%E7%9D%A3%E5%AD%A6%E4%B9%A0++++++++++++++++++++++++++++++&spm=1018.2226.3001.4187
  • 监督学习和无监督学习的区别(机器学习)https://blog.csdn.net/qq_35793285/article/details/103452714?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522164300984916780265438415%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=164300984916780265438415&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2alltop_click~default-2-103452714.first_rank_v2_pc_rank_v29&utm_term=++++++++++++++++%E7%9B%91%E7%9D%A3%E5%AD%A6%E4%B9%A0%E5%92%8C%E6%97%A0%E7%9B%91%E7%9D%A3%E5%AD%A6%E4%B9%A0++++++++++++++++++++++++++++++&spm=1018.2226.3001.4187E5%AD%A6%E4%B9%A0++++++++++++++++++++++++++++++&spm=1018.2226.3001.4187
Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐