机器学习中一些数学问题

目录机器学习误差分类回归树CART(Classification and Regression Trees)HMM和CRF概率密度函数估计机器学习机器学习是近20多年兴起的一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。因

lunei

420人浏览 · 2021-01-28 09:49:27

lunei · 2021-01-28 09:49:27 发布

机器学习

误差

分类回归树CART(Classification and Regression Trees)

HMM和CRF

概率密度函数估计

机器学习

机器学习是近20多年兴起的一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论，机器学习与统计推断学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。很多推论问题属于无程序可循难度，所以部分的机器学习研究是开发容易处理的近似算法。

误差

训练误差是在训练记录上误分类样本比例；
泛化误差是模型在未知记录上的期望误差；

一个好的模型不仅要能够很好地拟合训练数据，而且对未知样本也要能够准确地分类。
一个好的分类模型必须具有低的训练误差和泛化误差。因为一个具有低训练误差的模型，其泛化误差可能比具有较高训练误差的模型高。（训练误差低，泛化误差高，称为过渡拟合）

分类回归树CART(Classification and Regression Trees)

目标变量是类别的 --- 分类树
目标变量是连续的 --- 回归树

HMM和CRF

共性：都常用来做序列标注的建模，像词性标注。
差异：HMM最大的缺点就是由于其输出独立性假设，导致其不能考虑上下文的特征，限制了特征的选择；在每一节点都要进行归一化，所以只能找到局部的最优值，同时也带来了标记偏见的问题（label bias）；CRF：选择上下文相关特性；不在每一个节点进行归一化，而是所有特征进行全局归一化，可以求得全局的最优值。