模式识别与机器学习(1)——贝叶斯判别学习记录
什么是模式识别?贝叶斯判别原则又是干什么的?模式识别的目的就是要确定某一个给定的模式样本属于哪一类。 可以通过对被识别对象的多次观察和测量,构成特征向量,并将其作为某一个判决规则的输入,按此规则来对样本进行分类。确定性现象:在获取模式的观测值时,有些事物具有确定的因果关系,即在一定的条件下,它必然会发生或必然不发生,(如判别一个模型是不是直角三角形,结果只有两种可能是和不是)称这...
什么是模式识别?贝叶斯判别原则又是干什么的?
模式识别的目的就是要确定某一个给定的模式样本属于哪一类。 可以通过对被识别对象的多次观察和测量,构成特征向量,并将其作为某一个判决规则的输入,按此规则来对样本进行分类。
确定性现象:在获取模式的观测值时,有些事物具有确定的因果关系,即在一定的条件下,它必然会发生或必然不发生,(如判别一个模型是不是直角三角形,结果只有两种可能 是和不是)称这种现象为确定性现象。
但在现实世界中,由许多客观现象的发生,就每一次观察和测量来说,即使在基本条件保持不变的情况下也具有不确定性。 只有在大量重复的观察下,其结果才能呈现出某种规律性,即对它们观察到的特征具有统计特性。 特征值不再是一个确定的向量,而是一个随机向量。 此时,只能利用模式集的统计特性来分类,以使分类器发生错误的概率最小。(到这里就会不明白了: 分类器是什么东东?其实分类器就是一个判别模式x属于哪一类的一系列规则,当假定给定的模式样本实际上是属于A类的,通过某种判别原则(接下来的主角 “贝叶斯判别原则” 就是其中的一种)后,将它判别为B时,就发生了分类器失败。当然,我们希望判错的概率越小越好,所以模式识别的终极目的,就是找到一种好的判别原则,使得判错的概率最小。)于是,贝叶斯判别原则就登场了。
贝叶斯判别
接下来就会需要一些数学基础(尽量不涉及太多):
根据概率判别规则,有:若P(ω1 | x) > P(ω2 | x),则xω1
若P(ω1 | x) < P(ω2 | x),则xω2
由贝叶斯定理,后验概率P(ωi | x)可由类别ωi的先验概率P(ωi)和x的条件概率密度p(x | ωi)来计算,即:
P(|x)= = 这里p(x | ωi)也称为似然函数。
(到这里就会不明白了:先验概率是什么?后验概率是什么?条件概率密度与似然函数的区别是什么?我本人在考研过程中对数学最大的疑问就是,学这玩意到底要干嘛?我们求积分求微分我们还能稍微知道点,将来能用来求面积,求体积。但是自己造一个微分方程,让自己去解,我tm是为了什么?求概率还能理解,我们自己造个概率密度函数,是仅仅就是为了锻炼下自己的手动求微积分的能力吗?唉,现在终于看到学这些东西的妙用了!重点来了!!!我们可以暂且可以这样理解,模式x可以理解为概率论中 参数估计中的参数,我们的目的就转化为对x进行参数估计,因此自然而然就会想到似然函数的用处。接下来从本质上进行理解:
1.先验概率:这个很容易理解,ω类发生的概率。
2.后验概率:在模式x已定条件下,ω类发生的概率。(明白了!!!换个说法肯定会更容易理解,模式xω类的概率,这不就是我们最关心的吗?不过是一个条件概率而已)。
3.似然函数:我们肯定都还记得考研中概率论最后一道大题,最大似然函数。所谓似然,英文是likelihood,我觉得自己对不起语文老师了,似然是什么意思?把likelihood翻译成似然可能是因为对作学问的人来说更好理解(neng zhuang x)吧,不多说了。其实就是 “可能性” 的意思。换言之 P(x|)就是在的条件下,参数x的可能性,现在想想最大似然函数,不就是在特定条件下,关于参数的最大可能性函数吗?求最大似然估计,不就是求特定条件下参数最可能为多少吗?)
由上式推导 P(x|)P() >P(x|)P()时,则xω1
P(x|)P() >P(x|)P()时,则xω2
即对模式x的判别,完全可以由似然函数和,的先验概率决定,称该判别为贝叶斯(Bayes)判别。
更多推荐
所有评论(0)