前言

在进行科学研究的时候,人们往往喜欢先假设一些理想条件,并在这些条件下面进行实用化研究。在我个人看来,贝叶斯决策实际上就是从上帝视角出发研究问题,当我们对问题是全知的情况下,利用这些全知的信息进行决策的方法是最优的。这也是为什么许多模式识别的教材第一步的研究基础必定是贝叶斯。

1.预备知识

清楚的逻辑表达关系和符号的运用可以减轻我们对问题的理解和表述,因此我们首先需要理清一下基本的符号表达方式。
概率函数使用的是字母P(Probability)和p(probability density)注意小写的是概率密度分布是函数,大写表示的是概率,这两者有天然的不同需要特别注意。ωiωi<script type="math/tex" id="MathJax-Element-4355">\omega_i</script> 表示系统的类别ii<script type="math/tex" id="MathJax-Element-4356">i</script>, x <script type="math/tex" id="MathJax-Element-4357">x</script> 表示观测到的样本类型。
①先验概率 P(ωi)P(ωi)<script type="math/tex" id="MathJax-Element-4358">P(\omega_i)</script>
②类条件概率 p(x|ωi)p(x|ωi)<script type="math/tex" id="MathJax-Element-4359">p(x|\omega_i)</script> (即类已知的概率)
③后验概率 P(ωi|x)P(ωi|x)<script type="math/tex" id="MathJax-Element-4360">P(\omega_i|x)</script>
贝叶斯公式将上述几个表达桥接如下:
P(ωi|x)=p(x|ωi)P(ωi)p(x)=p(x|ωi)P(ωi)ci=1p(x|ωi)P(ωi)P(ωi|x)=p(x|ωi)P(ωi)p(x)=p(x|ωi)P(ωi)∑i=1cp(x|ωi)P(ωi)<script type="math/tex" id="MathJax-Element-4361">P(\omega_i|x)=\frac{p(x|\omega_i)P(\omega_i)}{p(x)}=\frac{p(x|\omega_i)P(\omega_i)}{\sum_{i=1}^{c}p(x|\omega_i)P(\omega_i)}</script>

Question:这里的一些字母为什么是大写,某些又是小写呢?
这涉及到我们对条件概率的理解,对于一个随机变量,我们不能够使用一个常数来去描述它,可以通过统计量对它进行部分描述,如均值,方差,n阶矩等,最全面的描述就是利用概率密度进行描述,而概率密度是一个函数,我们通常用小写p表示,如p(x)p(x)<script type="math/tex" id="MathJax-Element-4362">p(x)</script>,而对于一个确定的事件如类别为ωiωi<script type="math/tex" id="MathJax-Element-4363">\omega_i</script> 的事件,其概率是确定的,因此我们使用大写P表示,如P(ωi)P(ωi)<script type="math/tex" id="MathJax-Element-4364">P(\omega_i)</script>。对于条件概率来说竖杠“|”后面的条件是已然发生的,已经发生的事情便是确定的事情,这种对于未知事件xx<script type="math/tex" id="MathJax-Element-4365">x</script> 的概率,考虑已知部分信息的情况“如属于 ω i <script type="math/tex" id="MathJax-Element-4366">\omega_i</script> 类”的条件下,p(x|ωi)p(x)p(x|ωi)≠p(x)<script type="math/tex" id="MathJax-Element-4367">p(x|\omega_i)\neq p(x)</script>,两者必然不等,可看作是随机变量限定在了特定的范围内,但仍是不确定的。而对于P(ωi|x)P(ωi|x)<script type="math/tex" id="MathJax-Element-4368">P(\omega_i|x)</script> 的形式则不然,它表示随机变量xx<script type="math/tex" id="MathJax-Element-4369">x</script>已确定,在这种条件下,属于类别 ω i <script type="math/tex" id="MathJax-Element-4370">\omega_i</script> 的概率必然是个确定的值,这时候应该使用大写P。故有上述的表示方式。

Question:怎么理解贝叶斯公式?
如上述的分析,条件概率可以看做是对已知条件下,(获取了更多的信息的情况下),对同一事件的概率计算。它告诉了我们如何对假设已经确定随机变量值之后,计算与该随机变量相关的事件发生的概率。同时该公式也是一个修正公式,修正了先验概率,告诉了我们应当如何融合已知信息,修正先验概率。

2.上帝视角的分类问题,

在定义错误的时候,我们首先定义一些概念,以便后续的理解:
决策类别:分类器的输出类别也就是输入样本信息后分类器的输出判断类别,是带有主观色彩的属于分类器的判别。用 αα<script type="math/tex" id="MathJax-Element-10491">\alpha</script> 字母表示。
自然类别: 即样本自身所述类别,是客观存在的类别分类。属于样本的自然属性。用 ωω<script type="math/tex" id="MathJax-Element-10492">\omega</script> 字母表示。
注意:αωα和ω<script type="math/tex" id="MathJax-Element-10493">\alpha和\omega</script> 下标一 一对应。
 从最小错误率的准则推导出后验概率进行类别决策的规则
从分类问题来看,错误就是决策类别与样本的自然类别不匹配,对于多类问题来说,输入任意一个样本,1-决策类别与自然类别匹配的概率。最小错误率的基本思想是对于一个随机样本xx<script type="math/tex" id="MathJax-Element-10494">x</script>,其错分概率的在 x <script type="math/tex" id="MathJax-Element-10495">x</script> 可取值的所有范围内的期望最小。
公式表示为:
minP(e)=P(e|x)p(x)dxminP(e)=∫P(e|x)p(x)dx<script type="math/tex" id="MathJax-Element-10496">min P(e)=\int P(e|x)p(x)dx</script>
Remark: 从全局来看想要期望最小,仅需要在任意选定的xiωixi∈ωi<script type="math/tex" id="MathJax-Element-10497">x_i\in\omega_i</script> 样本中,总是做出P(e|xi)P(e|xi)<script type="math/tex" id="MathJax-Element-10498">P(e|x_i)</script> 最小的决策,即等价于做出P(c|xi)P(c|xi)<script type="math/tex" id="MathJax-Element-10499">P(c|x_i)</script>最大的决策。即从局部来看,对于一个已经采集好的样本来说,只需要计算并选择P(ωi|xi)P(ωi|xi)<script type="math/tex" id="MathJax-Element-10500">P(\omega_i|x_i)</script> 是最大的概率。
这里写图片描述
因此,基于最小错误率的贝叶斯决策规则可以最原始地表示如下:
P(ωj|x)=maxP(ωi|x),i=1,2,...,cxαjP(ωj|x)=maxP(ωi|x),i=1,2,...,c,则x∈αj<script type="math/tex" id="MathJax-Element-10501">P(\omega_j|x)=max P(\omega_i|x),i=1,2,...,c,则x\in\alpha_j</script>
还有其他多种等价的形式,但都是基于简单的整理得出的,都有其特定的需求,如想要追求理论形式上的一致性,写作了似然比的形式等,在此不赘述。

 考虑最小风险决策导出的决策表,决策表的表示方法。最小风险决策规则
最小风险决策则是考虑了决策可能带来的风险,对每种决策进行量化评估,人为添加权值,决策表中的横坐标为决策类别,纵坐标为自然类别,因此表中的每个元素可以写成λ(αi,ωj)λ(αi,ωj)<script type="math/tex" id="MathJax-Element-10502">\lambda(\alpha_i,\omega_j)</script>。这种决策的目标是最小化决策风险期望。对于某一样本xmxm<script type="math/tex" id="MathJax-Element-10503">x_m</script>,进行任意一类的决策其决策的风险为:
R(αi|xm)=cj=1λ(αi,ωj)P(ωj|xm)R(αi|xm)=∑j=1cλ(αi,ωj)P(ωj|xm)<script type="math/tex" id="MathJax-Element-10504">R(\alpha_i|x_m)=\sum_{j=1}^c\lambda(\alpha_i,\omega_j)P(\omega_j|x_m)</script> ——条件风险
R(αi)=R(αi|x)p(x)dxR(αi)=∫R(αi|x)p(x)dx<script type="math/tex" id="MathJax-Element-10505">R(\alpha_i)=\int R(\alpha_i|x)p(x)dx</script> ——风险期望

因此,从全局来看想要选择一个期望风险最小的决策,应在任意位置的xx<script type="math/tex" id="MathJax-Element-10506">x</script> 都选择条件风险最小的决策类别。从局部来看,仅需要计算特定样本的条件风险并选择最小的一项。
R ( α j | x ) = m i n R ( α i | x ) , i = 1 , 2 , . . . , c x α j <script type="math/tex" id="MathJax-Element-10507">R(\alpha_j|x)=min R(\alpha_i|x),i=1,2,...,c,则x\in\alpha_j</script>

Remark: 最小风险决策规则实际上是人为加入了权值调节,设置了人为偏好,对于想要规避的错误项,增加其权重,如有病的病人被诊断为没有病,将会耽误治疗,其风险或说错误带来的代价很大,应该当设置较高的权值,这将使得分类器在样本游走在有病和没病的一定界限范围内时,偏好于决策为有病。

总结

上面为什么说是上帝视角呢,因为贝叶斯决策虽然是最优的决策,可以使决策的错误率达到最小,或者是其他设定规则下的最优结果,然而,在实际应用过程中,类别的先验概率是未知的,而且类条件概率也是未知的,需要大量的样本对或引入领域的先验知识对其进行统计和估计。然后才能够进行决策。估计的过程不一定能够反映出类别的真实信息,因此其性能没有理论上分析的那么完美,我个人认为是从上帝视角来观望这项任务。然而,理论上的分析为我们提供了一种评判标准,和理论的对比。许多分类器的设计仅考虑到了训练样本的性能问题,而贝叶斯考虑到的是样本空间中所有可能性的情况,因此,其理论更加完备,也为后续分类器的设计提供了许多指导意义。

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐