机器学习中的高斯过程(一篇引用超20000的论文)
Gaussian Processes in Machine Learning1.摘要本文没啥创新,但给出了高斯过程回归模型的基本介绍。以及如何理解随机过程的作用,如何使用它来定义函数上的分布。提出了合并训练数据的简单方程,并研究了如何使用边际似然来学习超参数。我们解释了高斯过程的实际优势,并以结论和回顾GP工作的当前趋势。现在看来算是入门基于高斯模型的贝叶斯优化的科普文吧。2.高斯过程定义:高斯过
Gaussian Processes in Machine Learning
1.摘要
本文没啥创新,但给出了高斯过程回归模型的基本介绍。以及如何理解随机过程的作用,如何使用它来定义函数上的分布。提出了合并训练数据的简单方程,并研究了如何使用边际似然来学习超参数。我们解释了高斯过程的实际优势,并以结论和回顾GP工作的当前趋势。
现在看来算是入门基于高斯模型的贝叶斯优化的科普文吧。
2.高斯过程
定义:高斯过程是随机变量的集合,任何有限的变量都符合联合高斯分布。
高斯过程由平均函数
u
(
x
)
u(x)
u(x)和协方差核
K
(
x
,
x
′
)
K(x,x')
K(x,x′)完全指定。 这是高斯分布的自然推广,其均值和协方差分别是向量和矩阵。 即:
意思是:“函数
f
f
f的分布满足作为平均函数
u
(
x
)
u(x)
u(x)和协方差核
K
(
x
,
x
′
)
K(x,x')
K(x,x′)的GP分布”
对于高斯模型,我们只需要有限维的样本就可以保证模型的质量(比如预测的准确率)。下面给出一个gp具体例子:
假如我们采n个样本点,我们可以使用上式得到它们的均值和协方差矩阵,于是我们可以定义它的分布为:
我们可以用下面的matlab代码绘制出,上面用
g
p
(
m
,
k
)
gp(m,k)
gp(m,k)定义的函数
f
f
f的图形
3.后验高斯过程
刚才我们用到的GP将用作贝叶斯推理的先验,它不依赖于训练数据,而是指定函数的某些形式(比如刚才那个函数平滑,接近二次)。
计算后验的主要目标之一是,它可以用来预测看不见的测试用例。设
f
f
f为训练用例的已知函数值,设
f
∗
f^∗
f∗为与测试集输入
X
∗
X^∗
X∗对应的函数值集。则联合分布为:
其中,
Σ
\Sigma
Σ表示训练数据的协方差,
Σ
∗
\Sigma_*
Σ∗表示训练和测试数据的协方差,
Σ
∗
∗
\Sigma_{**}
Σ∗∗表示测试数据的协方差
因为我们知道训练集的值
f
f
f,我们可以得到条件分布:
注,条件联合高斯分布的公式是:
这是一组特定的测试用例的后验分布。很容易验证相应的后验过程是:
Σ
(
X
,
x
)
\Sigma(X,x)
Σ(X,x)是每个训练集和
x
x
x之间的协方差向量。请注意,后验方差
k
D
(
x
,
x
′
)
k_D(x,x')
kD(x,x′)等于先验方差
k
(
x
,
x
)
k(x,x)
k(x,x)减去一个正项,这取决于训练输入;因此,后验方差总是小于先验方差,因为数据给了我们一些额外的信息。
最后一个问题是,训练输出中的噪声。最常见的假设是噪声具有可加性i.i.d(即独立同分布)。
在高斯过程模型中,这种噪声很容易考虑;其噪声影响是每个
f
(
x
)
f(x)
f(x)本身都有一个额外的协方差(因为噪声是独立的),其大小等于噪声方差:
如果我们有多个噪声,假设这些情况下的噪声是独立的,它们也满足可加性。因此,噪声过程的协方差函数是信号协方差和噪声协方差的和.
下图为一个后验图:
4.训练一个高斯过程
在先验知识不足时,我们会将均值函数和协方差函数设成带超参数的形式,比如对前面gp模型的一般化为:
我们加入了参数
θ
=
a
,
b
,
c
,
σ
y
,
σ
n
,
l
θ={a,b,c,σ_y,σ_n,l}
θ=a,b,c,σy,σn,l。
我们使用最大似然法估计超参数。
根据其偏导数优化边际似然,我们可以求得:
注,训练GP模型既包括模型选择,也包括均值函数和协方差函数的不同函数形式之间的离散选择,以及这些函数的超参数的调整;为了简洁起见,我们只在这里考虑后者-因为边际似然可以比较。
下图是最大化边缘概率密度后得到的模型结果图。
返回贝叶斯优化优秀论文总结目录
更多推荐
所有评论(0)