第十周学习笔记
第十周学习笔记1.阅读《模式识别》(第三版)张学工1.第二章 统计决策方法主要内容最小错误率贝叶斯决策最小风险贝叶斯决策两类错误率、Neyman-Pearson决策与ROC曲线正态分布时的统计决策错误率的计算离散概率模型下的统计决策举例(马尔可夫模型,隐马尔科夫模型)值得注意的地方1.为什么最小错误率贝叶斯决策是使后验概率最大的决策?最小错误率贝叶斯决策是为了最小化m...
第十周学习笔记
1.阅读《模式识别》(第三版)张学工
第二章 统计决策方法
主要内容
- 最小错误率贝叶斯决策
- 最小风险贝叶斯决策
- 两类错误率、Neyman-Pearson决策与ROC曲线
- 正态分布时的统计决策
- 错误率的计算
- 离散概率模型下的统计决策举例(马尔可夫模型,隐马尔科夫模型)
值得注意的地方
1.为什么最小错误率贝叶斯决策是使后验概率最大的决策?
最小错误率贝叶斯决策是为了最小化
min
P
(
e
)
=
∫
p
(
e
∣
x
)
p
(
x
)
d
x
\min P(e)=\int p(e|x)p(x)dx
minP(e)=∫p(e∣x)p(x)dx
对于某个x,有
p
(
e
∣
x
)
=
{
P
(
w
2
∣
x
)
如果决策x
∈
w
1
P
(
w
1
∣
x
)
如果决策x
∈
w
2
p(e|x)= \begin{cases} P(w_2|x)& \text{如果决策x}\in w_1\\ P(w_1|x)& \text{如果决策x}\in w_2 \end{cases}
p(e∣x)={P(w2∣x)P(w1∣x)如果决策x∈w1如果决策x∈w2
其中
p
(
x
)
p(x)
p(x)可依据全概率公式展开,
直观的理解就是,如果认为
x
x
x属于第一类,那么犯错误的概率就是
x
x
x属于第二类的概率,如果认为
x
x
x属于第二类,那么犯错误的概率就是
x
x
x属于第一类的概率。
所以
2.计算后验概率的时候可以不用计算分母
后验概率的计算法则为
p ( w i ∣ x ) = p ( x ∣ w i ) p ( w i ) p ( x ) p(w_i|x)=\dfrac{p(x|w_i)p(w_i)}{p(x)} p(wi∣x)=p(x)p(x∣wi)p(wi)
其中 p ( x ) p(x) p(x)可以依据全概率公式展开,由公式可知,右边的分母是不依赖于 i i i的因此,计算x属于各个类别的后验概率时 p ( x ) p(x) p(x)是相等的,因而,可以只计算分母进行比较即可,事实上 p ( x ) p(x) p(x)只是一个归一因子。
3.灵敏度、特异度、准确率、召回率
灵敏度、特异度、准确率、召回率的计算公式分别为
S n (灵敏度) = T P T P + F N Sn \text{(灵敏度)}= \dfrac{TP}{TP+FN} Sn(灵敏度)=TP+FNTP
S p (特异度) = T N T N + F P Sp \text{(特异度)} = \dfrac{TN}{TN+FP} Sp(特异度)=TN+FPTN
P (准确率) = T P T P + F P P \text{(准确率)} = \dfrac{TP}{TP+FP} P(准确率)=TP+FPTP
R (召回率) = T P T P + F N R \text{(召回率)} = \dfrac{TP}{TP+FN} R(召回率)=TP+FNTP
观察公式可知,灵敏度就是召回率,也就是正类样本中被识别成正类的比例,医学角度说就是在所有生病的人中被判断为生病的人数,特异度是负类样本中被识别为负类的比例,而准确率就是判断为正类的样本中,真实为正类的样本所占比例,注意此处的准确率和召回率都是针对正类样本所言,换一个角度,特异度其实也是负类样本的召回率。
4.不相关性与独立性
不相关性
E
[
X
1
X
2
]
=
E
[
X
1
]
E
[
X
2
]
E[X_1X_2]=E[X_1]E[X_2]
E[X1X2]=E[X1]E[X2]
也可以是
C
o
v
(
X
1
,
X
2
)
=
0
Cov(X_1,X_2)=0
Cov(X1,X2)=0
独立性
p
(
X
1
X
2
)
=
p
(
X
1
)
p
(
X
2
)
p(X_1X_2)=p(X_1)p(X_2)
p(X1X2)=p(X1)p(X2)
独立 ⇒ \Rightarrow ⇒不相关
5.正态分布概率模型下的最小错误贝叶斯决策
当假设各类正态分布的协方差矩阵相等时,实际上就是CS229中的高斯判别分析
6.基于概率模型的模式识别方法与基于数据模式的识别方法
基于概率模型的模式识别方法使用概率模型对各类样本进行建模,进而比较似然比进行决策,而基于数据模式的识别方法直接估计计算数据到模式的映射,分别对应了生成学习方法和判别学习方法。
第三章 概率密度函数估计
主要内容
- 最大似然函数估计
- 贝叶斯估计与贝叶斯学习
- 概率密度估计的的非参数方法
值得注意的地方
1.P48习题:为什么 Σ ^ = 1 N ( x i − μ ^ ) ( x i − μ ^ ) T \hat{\Sigma}=\dfrac{1}{N}(x_i-\hat{\mu})(x_i-\hat{\mu})^T Σ^=N1(xi−μ^)(xi−μ^)T不是无偏估计?
E
[
Σ
^
]
=
1
N
E
[
∑
i
=
1
N
(
x
i
−
μ
^
)
(
x
i
−
μ
^
)
T
]
=
1
N
E
[
∑
i
=
1
N
(
x
i
x
i
T
−
μ
^
x
i
T
−
x
i
μ
^
T
+
μ
^
μ
^
T
)
]
=
1
N
E
[
∑
i
=
1
N
(
x
i
x
i
T
−
μ
^
μ
^
T
)
]
=
E
[
x
1
x
1
T
−
μ
^
μ
^
T
]
=
E
[
x
1
x
1
T
]
−
E
[
μ
^
μ
^
T
]
=
D
[
x
1
]
+
E
[
x
1
]
E
[
x
1
]
T
−
(
D
[
μ
^
]
+
E
[
μ
^
]
E
[
μ
^
]
T
)
=
Σ
+
μ
μ
T
−
1
N
Σ
−
μ
μ
T
=
N
−
1
N
Σ
\begin{aligned} E[\hat\Sigma]&=\dfrac{1}{N}E[\sum_{i=1}^{N}(x_i-\hat{\mu})(x_i-\hat{\mu})^T]\\ &=\dfrac{1}{N}E[\sum_{i=1}^{N}(x_ix_i^T-\hat\mu x_i^T-x_i\hat\mu^T+\hat\mu\hat\mu^T)]\\ &=\dfrac{1}{N}E[\sum_{i=1}^N(x_ix_i^T-\hat\mu\hat\mu^T)]\\ &=E[x_1x_1^T-\hat\mu\hat\mu^T]\\ &=E[x_1x_1^T]-E[\hat\mu\hat\mu^T]\\ &=D[x_1]+E[x_1]E[x_1]^T-(D[\hat\mu]+E[\hat\mu]E[\hat\mu]^T)\\ &=\Sigma+\mu\mu^T-\dfrac{1}{N}\Sigma-\mu\mu^T\\ &=\dfrac{N-1}{N}\Sigma \end{aligned}
E[Σ^]=N1E[i=1∑N(xi−μ^)(xi−μ^)T]=N1E[i=1∑N(xixiT−μ^xiT−xiμ^T+μ^μ^T)]=N1E[i=1∑N(xixiT−μ^μ^T)]=E[x1x1T−μ^μ^T]=E[x1x1T]−E[μ^μ^T]=D[x1]+E[x1]E[x1]T−(D[μ^]+E[μ^]E[μ^]T)=Σ+μμT−N1Σ−μμT=NN−1Σ
同时可知
1
N
−
1
E
[
∑
i
=
1
N
(
x
i
−
μ
^
)
(
x
i
−
μ
^
)
T
]
\dfrac{1}{N-1}E[\sum_{i=1}^{N}(x_i-\hat{\mu})(x_i-\hat{\mu})^T]
N−11E[∑i=1N(xi−μ^)(xi−μ^)T]是
Σ
\Sigma
Σ的无偏估计
第四章 线性分类器
主要内容
- 线性判别函数的基本概念
- Fisher线性判别分析
值得注意的地方
1.P65公式推导
∂
J
F
(
w
)
∂
w
=
2
S
b
w
w
T
S
w
w
−
2
w
T
S
b
w
S
w
(
w
T
S
w
w
)
2
=
2
(
m
1
−
m
2
)
(
m
1
−
m
2
)
T
w
w
T
S
w
w
−
2
w
T
(
m
1
−
m
2
)
(
m
1
−
m
2
)
T
w
S
w
w
(
w
T
S
w
w
)
2
=
2
w
T
(
m
1
−
m
2
)
(
m
1
−
m
2
)
w
T
S
w
w
−
2
w
T
(
m
1
−
m
2
)
w
T
(
m
1
−
m
2
)
S
w
w
(
w
T
S
w
w
)
2
=
2
w
T
(
m
1
−
m
2
)
w
T
S
w
w
[
(
m
1
−
m
2
)
+
w
T
(
m
1
−
m
2
)
S
w
w
w
T
S
w
w
]
\begin{aligned} \dfrac{\partial{J_F(w)}}{\partial{w}}&=\dfrac{2S_bw}{w^TS_ww}-\dfrac{2w^TS_bwSw}{(w^TS_ww)^2}\\ &=\dfrac{2(m_1-m_2)(m_1-m_2)^Tw}{w^TS_ww}-\dfrac{2w^T(m_1-m_2)(m_1-m_2)^TwS_ww}{(w^TS_ww)^2}\\ &=\dfrac{2w^T(m_1-m_2)(m_1-m_2)}{w^TS_ww}-\dfrac{2w^T(m_1-m_2)w^T(m_1-m_2)S_ww}{(w^TS_ww)^2}\\ &=\dfrac{2w^T(m_1-m_2)}{w^TS_ww}\left[(m_1-m_2)+\dfrac{w^T(m_1-m_2)S_ww}{w^TS_ww} \right] \end{aligned}
∂w∂JF(w)=wTSww2Sbw−(wTSww)22wTSbwSw=wTSww2(m1−m2)(m1−m2)Tw−(wTSww)22wT(m1−m2)(m1−m2)TwSww=wTSww2wT(m1−m2)(m1−m2)−(wTSww)22wT(m1−m2)wT(m1−m2)Sww=wTSww2wT(m1−m2)[(m1−m2)+wTSwwwT(m1−m2)Sww]
令其等于0,得
w ⋆ ∝ S w − 1 ( m 1 − m 2 ) w^{\star} \propto S_w^{-1}(m_1-m_2) w⋆∝Sw−1(m1−m2)
更多推荐
所有评论(0)