贝叶斯决策理论
贝叶斯决策理论该系列文章旨在记录学习模式识别课程时的心得与体会,如有错误敬请指正!统计模式识别方法统计学习由监督学习、非监督学习、半监督学习和强化学习等组成,其三要素为模型、策略与算法。其中监督学习方法又包括生成方法和判别方法,所学到的模型分别称为生成模型和判别模型。生成方法由数据学习联合概率分布,然后求出条件概率分布作为预测的模型,而判别方法由数据直接学习决策函数f(X)或者条件概...
贝叶斯决策理论
该系列文章旨在记录学习模式识别课程时的心得与体会,如有错误敬请指正!
统计模式识别方法
统计学习由监督学习、非监督学习、半监督学习和强化学习等组成,其三要素为模型、策略与算法。其中监督学习方法又包括生成方法和判别方法,所学到的模型分别称为生成模型和判别模型。生成方法由数据学习联合概率分布,然后求出条件概率分布作为预测的模型,而判别方法由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。下图展示了两种模型的代表性算法。
生成方法的特点:生成方法可以还原出联合概率分布P(X,Y),而判别方法则不能;生成方法是的学习收敛速度更快,即当样本容量剧增的时候,学到的模型可以更快地收敛于真实模型;当存在隐变量时,仍可以用生成方法学习,此时判别方法就能用。
判别方法的特点:判别方法直接学习的是条件概率P(Y|X)或决策函数f(X)。直接面对预测,往往学习的准确率更高;由于直接学习P(Y|X)或f(X),可以对数据进行各种程度的抽象,定义特征并使用特征,因此可以简化学习问题。
接下来我们要讲的是生成模型中的朴素贝叶斯(Naive Bayes)方法,它是基于贝叶斯定理和特征条件独立假设(如果存在概率依存关系,模型就变成了贝叶斯网络)的分类方法。- 问题表示:
- 理论依据
2.1 最小风险决策
首先引入决策代价(loss): λij λ i j
且
则条件风险为:
故最小风险决策为:
2.2 最小错误率决策
最小错误率决策实际上是0-1 loss,即:
由下式可知后验概率最大化(MAP) 等价于0-1损失函数的期望风险最小化。
2.3 带拒识的决策
拒识的意思是该样本不属于任何一个已知的类别(假设共有C个类别),也可以认为分到了第C+1类。同样定义 λij λ i j 如下:
则最小损失决策如下:
- 分类器、判别函数及判定面
3.1有很多种方式来表述模式分类器,其中用的最多的是一种判别函数 gi(x),i=1,2,...,c g i ( x ) , i = 1 , 2 , . . . , c 的形式,如果对于所有的 j≠i j ≠ i ,有 gi(x)>gj(x) g i ( x ) > g j ( x ) ,则此分类器将这个特征向量x 判为 ωi ω i . 一个贝叶斯分类器可以简单自然的表示成这种形式。在具有一般风险的情况下,我们让 gi(x)=−R(αi|x) g i ( x ) = − R ( α i | x ) ,这是由于最大的判别函数是与最小的条件风险相对应的;在最小误差概率情况下,我们可进一步简化问题,让 gi(x)=P(ωi|x) g i ( x ) = P ( ω i | x ) ,此时最大判别函数与最大后验概率相对应。显然,判别函数的选择并不是唯一的,我们可以将所有的判别函数乘上相同的正常数或者加上一个相同的常量而不影响其判决结果,更一般的情况下,如果我们将每一个 gi(x) g i ( x ) 替换成 f(gi(x)) f ( g i ( x ) ) ,其中 f(⋅) f ( ⋅ ) 是一个单调递增函数,分类结果不变。特别的,对于最小误差率分类,选择下列任何一种函数都可得到相同的分类结果。
尽管判别函数可写成各种不同的形式,但是判决规则是相同的,每种判决规则均是将特征空间分成c个判决区域, R1,R2,...,Rc R 1 , R 2 , . . . , R c .如果对于所有的 j≠i j ≠ i 有 gi(x)>gj(x) g i ( x ) > g j ( x ) ,那么x属于 Ri R i ,判决规则要求我们将x分给 ωi ω i 。此区域由判决边界来分割,其判决边界即判决空间中使判别函数值最大的曲面。
3.2 正态分布的判别函数
这种最简单的情形发生在各特征统计独立,并且每个特征具有相同的方差 σ2 σ 2 时。在这种情况下的协方差矩阵是对角阵,仅仅是 σ2 σ 2 与单位阵I的乘积。
- 问题表示:
第二种最简单的情况是所有类的协方差矩阵都相等,但各自的均值向量是任意的。经过推导简化后得到的线性判别函数与我们之后要讲到的Fisher线性判别分析(FLA)有密切的联系,在此先埋个伏笔。
在一般的多元正态分布的情况下,每一类的协方差矩阵是不同的,其判别函数为二次型,对应的判别面为超二次曲面。
4. 离散变量的贝叶斯决策
具体例子可参见李航的《统计学习方法》一书相关内容。
Reference
[1]《pattern classification》
[2]《统计学习方法》,李航
[3] 模式识别课件
更多推荐
所有评论(0)