6.1 什么是机器学习

大数据时代

  • 大数据时代1.0:数据的积累和呈现
  • 大数据时代2.0:机器学习,用历史数据预测未来
  • DT(Digital Technology)时代,数据即财富
  • 机器学习,给数据赋予价值
    在这里插入图片描述

什么是机器学习


机器学习是模拟人类学习,核心即试错

6.2 机器学习的类型

在这里插入图片描述

监督学习vs无监督学习

  • 监督学习:利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。
  • 无监督学习:事先没有任何训练数据样本,需要直接对数据建模。

监督学习vs强化学习

监督学习为实时反馈,强化学习为延时反馈
在这里插入图片描述

机器学习为什么能起作用?

  • 预测房价
    在这里插入图片描述
  1. 根据数据特征,用算法将数据分类
  2. 泛化算法,线性回归

6.3~6.5 简单回归实例

房产价值估算

房产价格是⼀个整体,房间数量,房屋⼤⼩,⼩区地段这些都是它的特征,根据权重,这些特征数据会有⼀个加权值
所以价值估算的命题,实际上就是计算机如何帮我们找到权重的问题
在这里插入图片描述

  1. 把每个权重都设置为1
  2. 将每栋房产代⼊函数,检验估算值与正确价格间的偏离
  3. 不断重复第⼆步,尝试所有可能的权重值组合,找到代价最接近于0的组合
    在这里插入图片描述
    在这里插入图片描述

预测只是在已知⽆完美解的情况下找到最优解

过拟合

在这里插入图片描述
在这里插入图片描述
拟合(Fitting):就是说这个曲线能不能很好的描述某些样本,并且有比较好的泛化能力。

过拟合(Overfitting):就是太过贴近于训练数据的特征了,在训练集上表现非常优秀,近乎完美的预测/区分了所有的数据,但是在新的测试集上却表现平平,不具泛化性,拿到新样本后没有办法去准确的判断。
在这里插入图片描述

欠拟合(UnderFitting):测试样本的特性没有学到,或者是模型过于简单无法拟合或区分样本。
在这里插入图片描述
在这里插入图片描述
拟合更注重全局分布(允许误差),⽽过拟合注重局部数据分布,不利于预测新的元素。
在这里插入图片描述

交叉验证

将样本分为测试样本和训练样本,测试样本即⽤来测试数据是否过拟合。
在这里插入图片描述

机器学习永远⾯对的是⽆限的可能,⽽不是有限的数据

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐