第十一周学习笔记

第十一周学习笔记1.阅读《模式识别》张学工第四章，线性分类器主要内容感知器最小平方误差判别最优分类超平面与线性支持向量机多类线性分类器值得注意的地方1.感知器的损失函数与logistic回归和线性回归等不同，感知器的定义了增广的规范化样本yiy_iyi，α\alphaα作为解向量的充要条件是αTyi&amp;gt;0\alpha^Ty_i&amp;gt;0αTyi

luputo

413人浏览 · 2018-10-19 14:56:51

luputo · 2018-10-19 14:56:51 发布

第十一周学习笔记

1.阅读《模式识别》张学工

第四章，线性分类器

主要内容

感知器
最小平方误差判别
最优分类超平面与线性支持向量机
多类线性分类器

值得注意的地方

1.感知器的损失函数

与logistic回归和线性回归等不同，感知器的定义了增广的规范化样本 $y_i$ ， $\alpha$ 作为解向量的充要条件是

$\alpha^Ty_i>0$

对所有 $i$ 成立，因此，损失函数就是

$J_p(\alpha)=\sum_{\alpha^Ty_k\leq0}(-\alpha^Ty_k)$

注意到感知器没有概率模型，因此没有使用最大似然估计，另外也没有使用均方差。

2.非方阵矩阵的伪逆

非方阵矩阵 $T$ 的伪逆为

$T^+=(T^TT)^{-1}T^T$

3.大间隔的意义

大间隔等价于最小化更小的VC维上界，VC维部分反应了模型的复杂程度，相同样本的情况下，更小的VC维可以使得模型具有更好的推广能力，这就是最大间隔的意义

4.软间隔支持向量机中， $\alpha$ 值的意义

$\alpha=0$ ，正确分类的非边界样本
$0\lt\alpha\lt C$ ，边界支持向量
$\alpha=C$ ，错分支持向量

5.多分类器：一对多，一对一

一对多，训练器少，但会面临样本不均衡的问题，且会有模糊的结果，因为c-1个平面并不一定恰好分得c个区域，分类器之间得到的输出值往往不具有可比性。
一对一，不会出现不平衡的问题，决策歧义比一对多少，但需要 $\dfrac{c(c-1)}{2}$ 个分类器

第五章，非线性分类器

主要内容

分段线性判别函数，将多峰大类分成若干子类，将新样本划分到这些子类中。
二次判别函数，如马氏距离
多层感知器神经网络
支持向量机，支持向量回归
核函数机器

值得注意的地方

1.分段线性判别函数与局部加权回归

实际上局部加权回归就是一个分段线性判别函数，且如果新的样本稠密的化，决策平面可以十分光滑

2.万能近似定理

万能近似定理只是存在性定理，说明了适当结构的三层前馈神经网络可以以任意精度逼近一个连续有界的函数

3.神经网络的编码和预处理

二分类的输出编码为一个输出单元，0or1
多分类的输出编码为one-hot向量，不建议使用二进制编码，节省节点但是会导致训练目标更加复杂
特征需要进行标准化，防止数值问题和尺度不同导致的差异

4.隐层节点的选择

试探法，经验建议小于输入维数，样本较少时采用少的隐层节点，有人建议输入节点的一半左右。
先验知识，精心设计
正则化剔除权值小的节点

5.利用特征变换提炼数据的非线性特征

特征变换将面临维数灾难问题，而SVM的核方法采用迂回策略，不直接计算特征变换，很好地解决了这一问题。

6.常用核函数

多项式核
径向基核
SIgmoid核函数
对于采用Sigmoid核函数的支持向量机，实现的就是一个三层神经网络，隐层节点就是支持向量的个数，所以支持向量机等价地实现了对神经网络节点数目的自动选择
核函数的选择原则：线性核->宽度较大的RBF核->宽度较小的RBF核
核函数的好处：避免了特征的直接计算，根据核函数的相似性度量的解释，可以避免对一些非数值特征的无意义编码，而直接定义其之间的相似性即可。另外支持向量机对于核函数具有一定的不敏感性。

第六章，其他分类方法

主要内容

近邻法
- k-近邻法，用k个最近样本的类别对待预测样本进行投票
- 分支定界算法，减少k-近邻法的计算量
- 剪辑近邻法，两类样本重叠的部分的分类面十分复杂，因此可以去掉重叠的部分进行分类
- 压缩近邻法，原理决策边界的样本对边界的构成无影响，可以剔除
决策树与随机森林
- 决策树特征选择：ID3方法，C4.5方法，CART方法
- 先剪枝，后剪枝
- 随机森林，bootstrap
logistic回归
Boosting方法，AdaBoost，集成学习方法，对前一个分类器的错分样本更大的权值来训练后一个分类器。

值得注意的地方

1.先减枝，后减枝

先剪枝没有全局观念，且不会回溯，缺乏对后效性的考虑，可能导致树的生长提前终止；后剪枝的方法在实践中更为成功，利用了所有的样本信息构建决策树，但计算代价更大。

第七章，特征选择

主要内容

特征的评价准则，类别可分性准测
- 基于类内间距离的可分性判据
- 基于概率分布的可分性判据
- 基于熵的可分性判据
- 统计检验作为可分性判据
特征选择的最优算法，分支定界法
特征选择的次优算法、
- 单独最优特征组合
- 顺序前进法，入选后无法剔除
- 顺序后退法，剔除后无法选入
- 增l减r法
特征选择的遗传算法
以分类性能为准则的特征选择方法

第八章，特征提取

主要内容

基于类别可分性判据的特征提取
主成分分析法
Karhunen-Loeve变换
高维数据的低维表示
多维尺度法，已知两两数据间的距离，求它们在二维平面上的分布
非线性变换方法
- 核主成分分析
- IsoMap和LLE方法，局部使用欧式空间近似

值得注意的地方

1.特征选择和特征提取的区别

特征选择是在可以得到的所有特征中选择合适的特征建模，而这里的特征提取是通过数学变换得到一组新的特征

2.KL变换

可以对总体进行KL变换，也可以单独对各类进行KL变换。

3.模式识别问题的五个阶段

问题的提出和定义
数据获取和预处理
特征提取和选择
分类器设计和性能评估
分类及结果解释

第九章，非监督模式识别

主要内容

基于模型的方法
混合模型的估计
动态聚类算法，k-means，ISODATA（改进的k-means，自动合并，分裂）
模糊聚类方法
分级聚类方法（系统聚类）
自组织映射神经网络

值得注意的地方

1.可识别性问题

如果可以从混合概率密度中恢复所有的参数，则是可识别的。

2.用均值来代表一类样本的局限性

用均值来作为一类样本的代表点，只有当类内样本的分布为超球状或接近超球状（各维特征上的样本方差接近）时，才能取得好的效果，这也是引入马氏距离的动机。

第十章，模式识别系统的评价

主要内容

监督模式识别方法的错误率估计
有限样本下错误率的区间估计问题
特征提取与选择对分类器性能估计的影响
从分类的显著性推断特征与类别的关系
非监督模式识别系统性能的评价

值得注意的地方

1.验证集的必要性

始终记住我们需要一个泛化误差小的模型，我们完全可以使用测试集上的误差来指导模型和参数的选择，但是，由于最终选好模型后，我们仍然使用测试集估计泛化误差，这种估计就会成为一种乐观的估计，因为在人为调整参数和模型使得误差小的过程中，我们就相当于在对测试集进行超参数的拟合，最终再使用测试集来判断超参数的是不对的，所以需要用验证集拟合超参数，测试集进行最后的误差估计。