6. 机器学习与监督算法
6.1 什么是机器学习大数据时代大数据时代1.0:数据的积累和呈现大数据时代2.0:机器学习,用历史数据预测未来DT(Digital Technology)时代,数据即财富机器学习,给数据赋予价值什么是机器学习机器学习是模拟人类学习,核心即试错6.2 机器学习的类型监督学习vs无监督学习监督学习:利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。无监督学
·
6.1 什么是机器学习
大数据时代
- 大数据时代1.0:数据的积累和呈现
- 大数据时代2.0:机器学习,用历史数据预测未来
- DT(Digital Technology)时代,数据即财富
- 机器学习,给数据赋予价值
什么是机器学习
机器学习是模拟人类学习,核心即试错
6.2 机器学习的类型
监督学习vs无监督学习
- 监督学习:利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。
- 无监督学习:事先没有任何训练数据样本,需要直接对数据建模。
监督学习vs强化学习
监督学习为实时反馈,强化学习为延时反馈
机器学习为什么能起作用?
- 预测房价
- 根据数据特征,用算法将数据分类
- 泛化算法,线性回归
6.3~6.5 简单回归实例
房产价值估算
房产价格是⼀个整体,房间数量,房屋⼤⼩,⼩区地段这些都是它的特征,根据权重,这些特征数据会有⼀个加权值
所以价值估算的命题,实际上就是计算机如何帮我们找到权重的问题
- 把每个权重都设置为1
- 将每栋房产代⼊函数,检验估算值与正确价格间的偏离
- 不断重复第⼆步,尝试所有可能的权重值组合,找到代价最接近于0的组合
预测只是在已知⽆完美解的情况下找到最优解
过拟合
拟合(Fitting):就是说这个曲线能不能很好的描述某些样本,并且有比较好的泛化能力。
过拟合(Overfitting):就是太过贴近于训练数据的特征了,在训练集上表现非常优秀,近乎完美的预测/区分了所有的数据,但是在新的测试集上却表现平平,不具泛化性,拿到新样本后没有办法去准确的判断。
欠拟合(UnderFitting):测试样本的特性没有学到,或者是模型过于简单无法拟合或区分样本。
拟合更注重全局分布(允许误差),⽽过拟合注重局部数据分布,不利于预测新的元素。
交叉验证
将样本分为测试样本和训练样本,测试样本即⽤来测试数据是否过拟合。
机器学习永远⾯对的是⽆限的可能,⽽不是有限的数据
更多推荐
已为社区贡献2条内容
所有评论(0)