【PRML】—— 共轭分布

写在前面《pattern recognition and machine learning，PRML》一直广受好评，全书从数学思想的方面介绍模式识别和机器学习，阅读之前需要一些数学只是，如果大学本科的数学（高等数学、概率和梳理统计、线性代数）还没完全忘记的话，阅读起来应该不是难事。另外一点，你需要静下心来慢慢读，细细品味（第一次读这本书的时候，读了几个章节就完全懵逼了 - -！）。这是第二次拿起来

NeverMore_7

1108人浏览 · 2017-08-14 15:18:23

NeverMore_7 · 2017-08-14 15:18:23 发布

写在前面

《pattern recognition and machine learning，PRML》一直广受好评，全书从数学思想的方面介绍模式识别和机器学习，阅读之前需要一些数学只是，如果大学本科的数学（高等数学、概率和梳理统计、线性代数）还没完全忘记的话，阅读起来应该不是难事。另外一点，你需要静下心来慢慢读，细细品味（第一次读这本书的时候，读了几个章节就完全懵逼了 - -！）。这是第二次拿起来读，所写下的是书中的内容加上自己里面的部分。如有不正确的地方，还请路过大神指正。

从伯努利分布开始

伯努利分布（Bernoulli Distribution）是指一个随机事件要么发生要么不发生。假设一个二元随机变量x∈{0,1}<script type="math/tex" id="MathJax-Element-1793">x \in \{0,1\}</script>，最常见的例子是投硬币，正面的向上的情况对应x=1<script type="math/tex" id="MathJax-Element-1794">x=1</script>，反面向上的事情对应x=0<script type="math/tex" id="MathJax-Element-1795">x=0</script>，但是这里，我们假设这一个硬币制造时出了问题，两面朝上的概率并不相等（不是常规认识的都等于0.5<script type="math/tex" id="MathJax-Element-1796">0.5</script>），我们设正面朝上的概率是μ<script type="math/tex" id="MathJax-Element-1797">\mu</script>，也就是：

p (x = 1 | μ) = u

p (x = 0 | μ) = 1 - p (x = 1 | μ) = 1 - μ

B e r n (x | μ) = μ x (1 - μ) 1 - x

μ<script type="math/tex" id="MathJax-Element-1801">\mu</script>的似然函数：

p (D | μ) = \prod n = 1 N p (x n | μ) = \prod n = 1 N μ x n (1 - μ) 1 - x n)

l n p (D | μ) = \sum n = 1 N {x n l n (μ) + (1 - x n) l n (1 - μ)}

D<script type="math/tex" id="MathJax-Element-1804">D</script>表示投掷硬币的所有事件集，按照最大释然估计解得：

μ M L = 1 N \sum n = 1 N x n = m N

m<script type="math/tex" id="MathJax-Element-1806">m</script>表示正面朝上(

x=1<script type="math/tex" id="MathJax-Element-1807">x=1</script>)的次数。这边是频率学派的最大似然估计过程。倘若，我们现在有三次观察，且这三次都是正面朝上，那么

μML=1<script type="math/tex" id="MathJax-Element-1808">\mu_{ML}=1</script>，也就是说它会把以后的投掷结果都当成正确的，明显这是错误的结论。

伯努利的扩展——二项分布

对于伯努利分布的扩展，二项分布表示在N<script type="math/tex" id="MathJax-Element-1809">N</script>次实验当中，事件没事了m<script type="math/tex" id="MathJax-Element-1810">m</script>次，且每一次的实验符合伯努利分布，则可以写出二项分布可表示为：

B i n (m | N, μ) = (N m) μ m (1 - μ) N - m

E (x) = \sum m = 0 N m * B i n (m | N, μ) = N μ

V a r (x) = \sum m = 0 N (m - E (x)) 2 B i n (m | N, μ) = N μ (1 - μ)

共轭分布

由前面提到的关于频率学派的最大似然估计的不足，先在我们假设为μ<script type="math/tex" id="MathJax-Element-1814">\mu</script>赋予一个先验p(μ)<script type="math/tex" id="MathJax-Element-1815">p(\mu)</script>，如果我们能为p(μ)<script type="math/tex" id="MathJax-Element-1816">p(\mu)</script>选择一个好的概率形式，则在计算后验时将会很方便。考虑二项分布的形式μm(1−μ)N−m<script type="math/tex" id="MathJax-Element-1817">\mu^m(1-\mu)^{N-m}</script>，这里忽略了前面的常数，并不会为我们的讨论带来任何变化，如果我们的先验也具有这种形式，这后验的形式将会简单很多，这里我们选择Beta<script type="math/tex" id="MathJax-Element-1818">Beta</script>分布，Beta<script type="math/tex" id="MathJax-Element-1819">Beta</script>分布的形式是：