Gaussian Processes in Machine Learning

1.摘要

本文没啥创新,但给出了高斯过程回归模型的基本介绍。以及如何理解随机过程的作用,如何使用它来定义函数上的分布。提出了合并训练数据的简单方程,并研究了如何使用边际似然来学习超参数。我们解释了高斯过程的实际优势,并以结论和回顾GP工作的当前趋势。
现在看来算是入门基于高斯模型的贝叶斯优化的科普文吧。

2.高斯过程

定义:高斯过程是随机变量的集合,任何有限的变量都符合联合高斯分布。

高斯过程由平均函数 u ( x ) u(x) u(x)和协方差核 K ( x , x ′ ) K(x,x') K(x,x)完全指定。 这是高斯分布的自然推广,其均值和协方差分别是向量和矩阵。 即:
在这里插入图片描述
意思是:“函数 f f f的分布满足作为平均函数 u ( x ) u(x) u(x)和协方差核 K ( x , x ′ ) K(x,x') K(x,x)的GP分布”
对于高斯模型,我们只需要有限维的样本就可以保证模型的质量(比如预测的准确率)。下面给出一个gp具体例子:
在这里插入图片描述
假如我们采n个样本点,我们可以使用上式得到它们的均值和协方差矩阵,于是我们可以定义它的分布为:
在这里插入图片描述

我们可以用下面的matlab代码绘制出,上面用 g p ( m , k ) gp(m,k) gp(m,k)定义的函数 f f f的图形
在这里插入图片描述

在这里插入图片描述

3.后验高斯过程

刚才我们用到的GP将用作贝叶斯推理的先验,它不依赖于训练数据,而是指定函数的某些形式(比如刚才那个函数平滑,接近二次)。
计算后验的主要目标之一是,它可以用来预测看不见的测试用例。设 f f f为训练用例的已知函数值,设 f ∗ f^∗ f为与测试集输入 X ∗ X^∗ X对应的函数值集。则联合分布为:
在这里插入图片描述

其中, Σ \Sigma Σ表示训练数据的协方差, Σ ∗ \Sigma_* Σ表示训练和测试数据的协方差, Σ ∗ ∗ \Sigma_{**} Σ表示测试数据的协方差
因为我们知道训练集的值 f f f,我们可以得到条件分布:
在这里插入图片描述

注,条件联合高斯分布的公式是:
在这里插入图片描述

这是一组特定的测试用例的后验分布。很容易验证相应的后验过程是:
在这里插入图片描述
Σ ( X , x ) \Sigma(X,x) Σ(X,x)是每个训练集和 x x x之间的协方差向量。请注意,后验方差 k D ( x , x ′ ) k_D(x,x') kD(x,x)等于先验方差 k ( x , x ) k(x,x) k(x,x)减去一个正项,这取决于训练输入;因此,后验方差总是小于先验方差,因为数据给了我们一些额外的信息。

最后一个问题是,训练输出中的噪声。最常见的假设是噪声具有可加性i.i.d(即独立同分布)。
在高斯过程模型中,这种噪声很容易考虑;其噪声影响是每个 f ( x ) f(x) f(x)本身都有一个额外的协方差(因为噪声是独立的),其大小等于噪声方差:
在这里插入图片描述
如果我们有多个噪声,假设这些情况下的噪声是独立的,它们也满足可加性。因此,噪声过程的协方差函数是信号协方差和噪声协方差的和.

下图为一个后验图:

在这里插入图片描述

4.训练一个高斯过程

在先验知识不足时,我们会将均值函数和协方差函数设成带超参数的形式,比如对前面gp模型的一般化为:
在这里插入图片描述
我们加入了参数 θ = a , b , c , σ y , σ n , l θ={a,b,c,σ_y,σ_n,l} θ=abcσyσnl
我们使用最大似然法估计超参数。
在这里插入图片描述
根据其偏导数优化边际似然,我们可以求得:
在这里插入图片描述
注,训练GP模型既包括模型选择,也包括均值函数和协方差函数的不同函数形式之间的离散选择,以及这些函数的超参数的调整;为了简洁起见,我们只在这里考虑后者-因为边际似然可以比较。

下图是最大化边缘概率密度后得到的模型结果图。

在这里插入图片描述

返回贝叶斯优化优秀论文总结目录

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐