模式识别（一）基于贝叶斯决策理论的分类器

1.1 引言1.2贝叶斯决策理论1.3判别函数和决策面1.4正态分布的贝叶斯分类1.5未知概率密度函数的估计1.6最近邻规则1.7贝叶斯网络

柳叶吴钩

1155人浏览 · 2020-05-18 00:47:24

柳叶吴钩 · 2020-05-18 00:47:24 发布

1.1 引言

设计分类器是将未知类型的样本分类到最可能的类别中。
后验概率：
给定一个 $M$ 类 $w_1,w_2,...,w_M）$ 的分类任务和一个用特征向量x表示的未知样本，生成条件概率 $P(w_i|x),i=1,2,..M$ ,也称后验概率。

1.2贝叶斯决策理论

先验概率：如果有N个训练样本，其中 $N_1,N_2$ 个样本分布属于 $w_1,w_2$ ,则相应的先验概率为 $P(w1)=N1N,P(w2)=N2NP(w_1)=\frac{N_1}{N},P(w_2)=\frac{N_2}{N}$ 。
贝叶斯公式：
$P(wi∣x)=p(x∣wi)P(wi)p(x)(1.1)P(w_i|x)=\frac{p(x|w_i)P(w_i)}{p(x)} \tag{1.1}$
$p (x)$ 是x的概率密度函数：
$p(x)=∑i=12p(x∣wi)P(wi)(1.2)p(x)=\sum_{i=1} ^{2}p(x|w_i)P(w_i) \tag{1.2}$
贝叶斯分类规则描述为：
如果 $P(w_1|x)>P(w_2|x)则x属于w_1$ ;
如果 $P(w_1|x)<P(w_2|x)则x属于w_2$ ;
但是由于贝叶斯准则的极限性，出现判定错误是不可避免的，其错误率 $P_e$ 的公式为：
$2Pe=∫−∞x0p(x∣w2)dx+∫x0+∞p(x∣w1)dx(1.3)2P_e= \int_{-\infty}^{x_0} p(x|w_2)dx+ \int_{x_0}^{+\infty}p(x|w_1)d_x \tag{1.3}$
因此需要最小化分类错误率。
贝叶斯分类器在最小化分类错误率是最优的。
最小平均风险
使用分类错误率最小并不是最好的标准，因为分类错误最小中认为所有的错误判断带来的后果是相同的，但是在实际中并非如此，如医生判断一个病人的疾病，将恶性肿瘤判断为良性肿瘤的，比将良性肿瘤判断为恶性肿瘤带来的后果严重。
因此引入根据不同分类的重要性对其进行加权，反映出对总错误率的贡献程度。
一个M分类问题， $R_j,j=1,2,3,...,M$ 是每一类 $w_j$ 各自对应的特征空间。
$rk=∑i=1Mλki∫RiP(x∣wk)dx(1.4)r_k = \sum _{i=1}^M \lambda_{ki}\int_{R_i}P(x|w_k)dx \tag{1.4}$
平均风险
$r=∑k=1MrkP(wk)=∑i=1M∫Ri(∑k=1Mλkip(x∣wk)P(wk))dxr=\sum _{k=1} ^M r_kP(w_k)=\sum_{i=1}^{M}\int_{R_i}(\sum_{k=1}^{M}\lambda_{ki}p(x|w_k)P(w_k))d_x$

1.3判别函数和决策面

对于M类的任务，风险概率和错误率的最小化等价于将特征空间分为M个区域，如果区域 $R_i$ 和 $R_j$ 正好相邻，它们在多维特征空间中由决策面划分，对于最小错误率可描述为：
$P(w_i|x)-P(w_j|x)=0$
对于决策面，差值为正的为一方，另一方则是负的。
判别函数：
$g_i(x) = f(P(w_i|x))$

若 $gi(x)>gj(x)∀j≠i,将x分类到wig_i(x)>g_j(x) \forall j\not=i,将x分类到w_i$
决策面描述为：
$gij(x)=gi(x)−gj(x)=0,i,j=1,2,...,M,i≠jg_ij(x)=g_i(x)-g_j(x)=0,i,j=1,2,...,M,i\not=j$

1.4正态分布的贝叶斯分类

1.4.1 高斯密度函数

一维高斯函数：
$p(x)=12πσexp(−(x−μ)22σ2)p(x)=\frac{1}{\sqrt{2\pi}\sigma } exp(-\frac{(x-\mu)^2}{2\sigma ^2})$
参数 $μ\mu$ 指数据变量的平均值：
$μ=E[x]=∫−∞+∞xp(x)dx\mu=E[x]=\int_{-\infty}^{+\infty}xp(x)dx$
参数 $σ2\sigma^2$ 等于x的方差，即：
$σ2=E(x−μ)2=∫−∞+∞(x−μ)2p(x)dx\sigma^2=E(x-\mu)^2=\int_{-\infty}^{+\infty}(x-\mu)^2p(x)dx$
多变量高斯概率密度函数定义为：
$p(x)=1(2π)l/2∣Σ∣1/2exp(−12(x−μ)TΣ−1（x−μ）)p(x)=\frac{1}{(2\pi)^{l/2}|\Sigma|^{1/2}}exp(-\frac{1}{2}(x-\mu)^T\Sigma ^{-1}（x-\mu）)$
其中 $μ=E[x]\mu=E[x]$ 是均值， $Σ\Sigma$ 是 $l * l$ 协方差矩阵，定义为：
$Σ=E[(x−μ)(x−μ)T]\Sigma=E[(x-\mu)(x-\mu)^T]$
二维空间的情况：
$Σ=E[[x1−μ1x2−u2][x1−u1,x2−u2]]\Sigma=E\left[ \left[ \begin{matrix} x_1-\mu_1\\ x_2-u_2\end{matrix}\right] \left[ x_1 -u_1,x_2-u_2 \right] \right]$
$=[σ12σ12σ12σ22]=\left[ \begin{matrix} \sigma_1^2 & \sigma_{12}\\ \sigma_{12} &\sigma_2^2 \end{matrix} \right]$
二维高斯函数的对角线协方差矩阵为：
$Σ=[3003]\Sigma=\left[ \begin{matrix} 3 & 0\\ 0 & 3 \end{matrix} \right]$
用python实现该二维高斯密度函数的曲线：

import numpy as np
import matplotlib.pyplot as plt
import math
import mpl_toolkits.mplot3d

x, y = np.mgrid[-10:10:0.1, -10:10:0.1]
z=1/(2*math.pi*3)*np.exp(-1/2 * (x**2+y**2)/3)

ax = plt.subplot(111, projection='3d') 
ax.plot_surface(x, y, z, rstride=1, cstride=1, cmap='rainbow', alpha=0.9)#绘面
ax.set_xlabel('x')
ax.set_ylabel('y')
ax.set_zlabel('z')
plt.show()