写在前面

《pattern recognition and machine learning,PRML》一直广受好评,全书从数学思想的方面介绍模式识别和机器学习,阅读之前需要一些数学只是,如果大学本科的数学(高等数学、概率和梳理统计、线性代数)还没完全忘记的话,阅读起来应该不是难事。另外一点,你需要静下心来慢慢读,细细品味(第一次读这本书的时候,读了几个章节就完全懵逼了 - -!)。这是第二次拿起来读,所写下的是书中的内容加上自己里面的部分。如有不正确的地方,还请路过大神指正。

从伯努利分布开始

伯努利分布(Bernoulli Distribution)是指一个随机事件要么发生要么不发生。假设一个二元随机变量x{0,1}<script type="math/tex" id="MathJax-Element-1793">x \in \{0,1\}</script>,最常见的例子是投硬币,正面的向上的情况对应x=1<script type="math/tex" id="MathJax-Element-1794">x=1</script>,反面向上的事情对应x=0<script type="math/tex" id="MathJax-Element-1795">x=0</script>,但是这里,我们假设这一个硬币制造时出了问题,两面朝上的概率并不相等(不是常规认识的都等于0.5<script type="math/tex" id="MathJax-Element-1796">0.5</script>),我们设正面朝上的概率是μ<script type="math/tex" id="MathJax-Element-1797">\mu</script>,也就是:

p(x=1|μ)=u
<script type="math/tex; mode=display" id="MathJax-Element-1798">p(x=1|\mu)=u</script>那么,反面朝上则为:
p(x=0|μ)=1p(x=1|μ)=1μ
<script type="math/tex; mode=display" id="MathJax-Element-1799">p(x=0|\mu)=1-p(x=1|\mu)=1-\mu</script>综上,投硬币的伯努利分布可以写成:
Bern(x|μ)=μx(1μ)1x
<script type="math/tex; mode=display" id="MathJax-Element-1800">Bern(x|\mu)=\mu^x(1-\mu)^{1-x}</script>假设每一次投掷硬币都是相互独立的,则我们可见建立μ<script type="math/tex" id="MathJax-Element-1801">\mu</script>的似然函数:
p(D|μ)=n=1Np(xn|μ)=n=1Nμxn(1μ)1xn)
<script type="math/tex; mode=display" id="MathJax-Element-1802">p(D|\mu)=\prod_{n=1}^N p(x_n|\mu)= \prod_{n=1}^N \mu^{x_n}{(1-\mu)^{1-x_n)}}</script>取对数得:
lnp(D|μ)=n=1N{xnln(μ)+(1xn)ln(1μ)}
<script type="math/tex; mode=display" id="MathJax-Element-1803">ln p(D|\mu)=\sum_{n=1}^N\{x_n ln(\mu)+{(1-x_n)}ln(1-\mu)\}</script>其中D<script type="math/tex" id="MathJax-Element-1804">D</script>表示投掷硬币的所有事件集,按照最大释然估计解得:
μML=1Nn=1Nxn=mN
<script type="math/tex; mode=display" id="MathJax-Element-1805">\mu_{ML}={1 \over N}\sum_{n=1}^N{x_n}={m \over N}</script> m<script type="math/tex" id="MathJax-Element-1806">m</script>表示正面朝上(x=1<script type="math/tex" id="MathJax-Element-1807">x=1</script>)的次数。这边是频率学派的最大似然估计过程。倘若,我们现在有三次观察,且这三次都是正面朝上,那么μML=1<script type="math/tex" id="MathJax-Element-1808">\mu_{ML}=1</script>,也就是说它会把以后的投掷结果都当成正确的,明显这是错误的结论。

伯努利的扩展——二项分布

对于伯努利分布的扩展,二项分布表示在N<script type="math/tex" id="MathJax-Element-1809">N</script>次实验当中,事件没事了m<script type="math/tex" id="MathJax-Element-1810">m</script>次,且每一次的实验符合伯努利分布,则可以写出二项分布可表示为:

Bin(m|N,μ)=(Nm)μm(1μ)Nm
<script type="math/tex; mode=display" id="MathJax-Element-1811">Bin(m|N,\mu)=\begin{pmatrix} N \\ m\\ \end{pmatrix} \mu^m(1-\mu)^{N-m}</script>对于独立时间,加和的均值等于均值的加和,加和的方差等于方差的加和,所以,对于二项分布,期望、方差分别是:
E(x)=m=0NmBin(m|N,μ)=Nμ
<script type="math/tex; mode=display" id="MathJax-Element-1812">E(x)=\sum_{m=0}^N m*Bin(m|N,\mu)=N\mu</script>
Var(x)=m=0N(mE(x))2Bin(m|N,μ)=Nμ(1μ)
<script type="math/tex; mode=display" id="MathJax-Element-1813">Var(x)=\sum_{m=0}^N(m-E(x))^2 Bin(m|N,\mu)=N \mu(1-\mu)</script>

共轭分布

由前面提到的关于频率学派的最大似然估计的不足,先在我们假设为μ<script type="math/tex" id="MathJax-Element-1814">\mu</script>赋予一个先验p(μ)<script type="math/tex" id="MathJax-Element-1815">p(\mu)</script>,如果我们能为p(μ)<script type="math/tex" id="MathJax-Element-1816">p(\mu)</script>选择一个好的概率形式,则在计算后验时将会很方便。考虑二项分布的形式μm(1μ)Nm<script type="math/tex" id="MathJax-Element-1817">\mu^m(1-\mu)^{N-m}</script>,这里忽略了前面的常数,并不会为我们的讨论带来任何变化,如果我们的先验也具有这种形式,这后验的形式将会简单很多,这里我们选择Beta<script type="math/tex" id="MathJax-Element-1818">Beta</script>分布,Beta<script type="math/tex" id="MathJax-Element-1819">Beta</script>分布的形式是:

Beta(μ|a,b)=Γ(a+b)Γ(a)Γ(b)μa1(1μ)b1
<script type="math/tex; mode=display" id="MathJax-Element-1820">Beta(\mu|a,b)={\Gamma(a+b) \over \Gamma(a)\Gamma(b)} \mu^{a-1}(1-\mu)^{b-1}</script>且有:
E(μ)=aa+b
<script type="math/tex; mode=display" id="MathJax-Element-1821">E(\mu)={a \over {a+b}}</script>
Var(μ)=ab(a+b)2(a+b+1)
<script type="math/tex; mode=display" id="MathJax-Element-1822">Var(\mu)={ab \over{(a+b)^2(a+b+1)}}</script>
根据贝叶斯公式有:
p(μ|m,l,a.b)μm+a1(1μ)l+b1
<script type="math/tex; mode=display" id="MathJax-Element-1823">p(\mu|m,l,a.b)∝\mu^{m+a-1}(1-\mu)^{l+b-1}</script>按照标准的Beta<script type="math/tex" id="MathJax-Element-1824">Beta</script>分布进行归一化后得:
p(μ|m,l,a,b)=Γ(m+l+a+b)Γ(m+a)Γ(l+b)μm+a1(1μ)l+b1
<script type="math/tex; mode=display" id="MathJax-Element-1825">p(\mu|m,l,a,b)={\Gamma(m+l+a+b) \over \Gamma(m+a)\Gamma(l+b)} \mu^{m+a-1}(1-\mu)^{l+b-1}</script>其中m<script type="math/tex" id="MathJax-Element-1826">m</script>是x=1<script type="math/tex" id="MathJax-Element-1827">x=1</script>的次数,l<script type="math/tex" id="MathJax-Element-1828">l</script>是x=0<script type="math/tex" id="MathJax-Element-1829">x=0</script>的次数。根据概率的加和以及乘积规则,可以预测:
p(x=1|D)=10p(x=1|μ)p(μ|D)dμ=10μp(μ|D)dμ=E[μ|D]
<script type="math/tex; mode=display" id="MathJax-Element-1830">p(x=1|D)=\int_{0}^1 p(x=1|\mu)p(\mu|D)d\mu=\int_{0}^1\mu p(\mu|D)d\mu=E[\mu|D]</script>即:
p(x=1|D)=m+am+a+l+b
<script type="math/tex; mode=display" id="MathJax-Element-1831">p(x=1|D)={{m+a} \over {m+a+l+b}}</script>当实验次数增多,即m  l<script type="math/tex" id="MathJax-Element-1832">m \ \ l</script>趋近于无穷时,上式便可忽略a  b<script type="math/tex" id="MathJax-Element-1833">a \ \ b</script>的影响,结果便是:
p(x=1|D)=mm+l=mN
<script type="math/tex; mode=display" id="MathJax-Element-1834">p(x=1|D)={m \over {m+l}}={m \over N}</script>,这和最大似然估计的结果并无差。而且当实验增多,后验概率会越来越稳定。
常见的共轭分布

Beta<script type="math/tex" id="MathJax-Element-1835">Beta</script>分布是二项分布的共轭分布、狄利克雷分布是多项式分布的共轭分布、

总结

频率学派和贝叶斯学派的争论一直没有听过,两者看似不同,却速途同归,在不同的应用场景下,有各自的优势与合理性,PRML这个小结便是从最简单的例子讲述了频率学派某些场景下的不足,以及贝叶斯学派最后的统一,在这个过程中,引出了共轭分布,它旨在使最后的后验概率形式和先验相同,使分析大大简化和方便。

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐