[论文阅读] | 机器学习中的双层规划问题(Bilevel Programming)

1. 引言最近看的论文涉及到了双层规划问题的求解，双层规划问题其实是一种特殊的优化问题。考虑这样一个场景，我们国家建设了很多铁路，站在国家的角度，一定程度是要最大化铁路的收益；而铁路的收益离不开使用者的消费，也就是我们普通人在出行时需要买票，那么站在个人的角度，一般情况下我们是会选择费用最低的出行方案。那么如何在保证普通人消费最低的情况下实现总体铁路收益最大化呢？双层规划问题就是指这种

要努力的小精灵

21429人浏览 · 2020-07-24 15:34:10

要努力的小精灵 · 2020-07-24 15:34:10 发布

1. 引言

最近看的论文涉及到了双层规划问题的求解，双层规划问题其实是一种特殊的优化问题。考虑这样一个场景，我们国家建设了很多铁路，站在国家的角度，一定程度是要最大化铁路的收益；而铁路的收益离不开使用者的消费，也就是我们普通人在出行时需要买票，那么站在个人的角度，一般情况下我们是会选择费用最低的出行方案。那么如何在保证普通人消费最低的情况下实现总体铁路收益最大化呢？

双层规划问题就是指这种优化问题：目标函数中的一组变量被约束为另一优化问题的最优解；更简单来说，就是一个优化问题的参数受限于另外一个优化问题，这两个问题相互影响。

因为我最近使用双层规划问题的场景是在机器学习中，具体讲是训练网络的过程中优化超参数(例如学习率、正则项的系数)，因此本文的内容限于机器学习中的双层规划。

2. 数学定义

$min_{\theta, w_{\theta}} F(w_{\theta},\theta) \quad such \ that \quad w_{\theta}\in min_{w}L(w, \theta) \quad(1)$

其中：

$F(w_{\theta},\theta)$ ：外部优化问题的目标函数(outer objective function)
$\theta)$ ：内部优化问题的目标函数(inner objection function)
$\theta$ ：外部变量/超参数(outer variable/hyper parameter)
$w$ ：内部变量(inner variable)

解释：

针对上述公式，我们的最终目的其实是求 $F(w_{\theta},\theta)$ 的最小值，但它其中的一个参数( $w_{\theta}$ )是关于另外一个问题 $\theta)$ 解的函数；
上面的目标函数F和L可以通俗理解为训练网络的时候使用的损失函数，比如说网络预测值与真实值差值的平方和；
在机器学习中有一类应用是通过双层规划问题来优化超参数，超参数优化问题的基本思想是在给定一个度量标准的情况下，使用验证集构建一个超参数的响应函数(eg:验证集上的平均损失)，然后在超参数空间寻找最优解；
在2的这种情况下，一般外部目标函数 $F(w_{\theta},\theta)$ 是基于验证集的，而内部目标函数 $\theta)$ 是基于训练集的。这样设置的一个直观的解释是：内部目标函数通过采用训练集样本不断优化内部变量，也就是不断优化网络各层的参数 $w$ ；而外部目标函数则通过采用验证集样本不断优化外部变量，也就是优化超参数。(这里先不用纠结如何进行优化，后续会详细介绍)；

3. 一种求解思路

求解双层规划问题是比较困难的，因为内部优化问题一般很难找到其闭和解(也称为解析解–>存在严格的公式，给定x就能求出y)。

一种求解双层规划问题的思路是：

固定外层超参数，优化内层参数：将内部优化问题的求解看做是一个迭代优化的过程，使用梯度下降或者其各类变体算法近似求解内层目标函数的解，即使用公式(2)进行多次梯度下降优 $w$ ，假设经过T次梯度下降后，得到内层优化问题的一个近似解 $w_{\theta, T}$ 。
$w_t = \Phi(w_{t-1}, \theta)=w_{t-1} - \eta\nabla L(w_{t-1}, \theta), t=1,2……T \quad(2)$
固定内层参数，优化外层超参数：在获得内层近似解之后，针对外层，也采用梯度下降优化超参数：计算外层目标函数对超参数 $\theta$ 的导数(称之为超梯度)，如公式(3)；然后更新超参数,如公式(4)。
$\nabla_{\theta}F(w_{\theta, T}, \theta)=\partial_{w}F(w_{\theta, T}, \theta)\nabla_{\theta}w_{\theta, T} + \partial_{\theta}F(w_{\theta, T}, \theta) \quad(3)$
$\theta = \theta - \eta_{outer}\nabla_{\theta}F(w_{\theta, T}, \theta) \quad(4)$
上述两个过程一般会进行多次迭代，具体在不同的应用中可以设置不同的循环停止条件，例如根据early stoping，或者根据训练误差和验证误差的关系。

4. 具体计算过程示例

[1]Franceschi, L., Donini, M., Frasconi, P., & Pontil, M. (2017). Forward and reverse gradient-based hyperparameter optimization. arXiv preprint arXiv:1703.01785.

双层规划问题有多种不同的求解方法，即使是根据本文第3部分描述的求解思路，也有具体不同的实现方式，这里呈现的计算过程是根据上述引用的论文[1]进行整理的，其整体思路是基于反向自动微分。
为了与上文进行符号统一，我修改了[1]中的符号表示，这其实并不影响对算法的理解；此外，论文[1]中针对内部优化使用的是带动量的梯度下降，为了简化理解，我采用了最简单的梯度下降。
注意： (1)根据论文[1]，这里的超参数 $\theta$ 就等于内部梯度下降过程中的学习率 $\theta$ ；在论文[1]中，作者使用的是带动量的梯度下降，因此它的超参数包括两个，当我简化为最基本的梯度下降后，超参数就变成了学习率；(2)也就是在下面4.1和4.2中， $\theta = \eta$ 。

4.1 先给出算法：
在这里插入图片描述

其中：

$\alpha_t=\begin{cases}\nabla F(w_{t})& \text{if t=T}\\\nabla F(w_{t})A_{T}…A_{t-1}& \text{if t=1,2…T-1}\end{cases} \quad(5)$
$A_t = \frac{\partial { \Phi_t(w_{t-1}, \theta)}}{\partial{w_{t-1}}} \quad(6)$
$B_t = \frac{\partial {\Phi_t(w_{t-1}, \theta)}}{\partial \theta} \quad(7)$

最后计算出：

$\nabla_{\theta}F(w_{\theta}, \theta) = \nabla F(w_T) \sum _{t=1} ^{T}(\prod_{s=t+1} ^{T}A_s)B_t \quad(8)$

4.2 推导细节

1.给定初始的内部梯度下降参数的初始值： $w_{0}$ 和初始超参数值 $\theta$ (在这里也等于 $\eta$ )

2.固定外层超参数 $\theta$ ，优化内层 $w$ ：
$\begin{cases} t=1:w_{1} = \Phi(w_{0}, \theta) = w_{0} - \theta \nabla L(w_{0}) \\ t=2:w_{2} = \Phi(w_{1}, \theta)= w_{1} -\theta \nabla L(w_{1}) \\ t=3:w_{3} = \Phi(w_{2}, \theta)= w_{2} - \theta \nabla L(w_{2}) \\ …… \\ t=T-1:w_{T-1} = \Phi(w_{T-2}, \theta) = w_{T-2} - \theta\nabla L(w_{T-2}) \\ t=T:w_{T} = \Phi(w_{T-1}, \theta)= w_{T-1} -\theta \nabla L(w_{T-1}) \\ \end{cases} \quad(9)$

3.得到 $w_{T}$ 后，我们认为内层优化问题已经找到了近似解，然后将固定内层参数，优化外层超参数：
(1) 优化外层超参数的第一步是求外层目标函数对超参数的超梯度：
我们先考虑一般的情况：
$\begin{aligned} \nabla_{\theta}F(w_{\theta, T}, \theta) &= \partial_{w}F(w_{\theta, T}, \theta)\nabla_{\theta}w_{\theta, T} + \partial_{\theta}F(w_{\theta, T}, \theta) \\ & = \frac{\partial_w F(w_{\theta, T}, \theta)}{\partial w_{\theta, T} }\frac{\mathrm{d} w_{\theta, T}}{\mathrm{d} \theta} + \frac{\partial_w F(w_{\theta, T}, \theta)}{\partial \theta} \end{aligned} \quad (10)$
然后由于我简化了论文[1]，也就是超参数 $\theta = \eta$ ，因此公式(10)将简化为：
$\nabla_{\theta}F(w_{T}) = \nabla_{w_T}F(w_{T})\nabla_{\theta}w_{T} = \frac{\mathrm{d} F(w_{T})}{\mathrm{d} w_T}\frac{\mathrm{d} w_{T}}{\mathrm{d} \theta} \quad (11)$

这里，在公式(11)中， $\frac{\mathrm{d} w_{T}}{\mathrm{d} \theta}$ 的计算是比较复杂的，因为 $w_T$ 是 $w_{T-1}$ 和 $\theta$ 的函数，而 $w_{T-1}$ 又是 $w_{T-2}$ 和 $\theta$ 的函数，以此类推，直到 $w_0$ ，因此求 $\frac{\mathrm{d} w_{T}}{\mathrm{d} \theta}$ 是一个嵌套的过程，因此根据链式法则，考虑 $\in{1,2……T}$
$\begin{aligned} \frac{\mathrm{d} w_{t}}{\mathrm{d} \theta} & = \frac{\partial{ \Phi(w_{t-1}, \theta)}}{\partial{w_{t-1}}}\frac{\mathrm{d} w_{t-1}}{\mathrm{d}\theta} + \frac{\partial{ \Phi(w_{t-1}, \theta)}}{\partial{\theta}} \end{aligned} \quad (12)$
令 $Z_t =\frac{\mathrm{d} w_{t}}{\mathrm{d} \theta}$ ，则公式(12)可以进一步表示为：
$Z_t =A_t Z_{t-1} + B_t \quad(13)$
所以，公式(11)可以根据公式(13)进一步展开：
$\begin{aligned} \nabla_{\theta}F(w_{T}) &= \nabla_{w_T}F(w_{T})\nabla_{\theta}w_{T} \\ &= \frac{\mathrm{d} F(w_{T})}{\mathrm{d} w_T}(A_T Z_{T-1} + B_T) \\ & = \frac{\mathrm{d} F(w_{T})}{\mathrm{d} w_T}(A_T A_{T−1} Z_{T−2 } + A_T B_{T−1} + B_{T}) \\ & = ... \\ & = \frac{\mathrm{d} F(w_{T})}{\mathrm{d} w_T} \sum _{t=1} ^{T}(\prod_{s=t+1} ^{T}A_s)B_t \end{aligned} \quad (14)$
其中 $A$ 和 $B$ 的定义见公式(6)和(7)；在公式(14)的每一步展开中，含有 $Z$ 的一项是不确定的，因为 $Z_t$ 总是依赖于 $Z_{t-1}$ ，这一项直到 $t = 1$ 才算展开结束；不过含有 $B$ 的一项是可以确定的；因此在4.1节展示的算法中，每次都是在总的梯度 $g$ 中加上公式(14)中含有 $B$ 的项，然后利用 $A$ 不断展开 $Z$ ，直到当 $t = 1$ 时计算出总的梯度。

(2)优化外层超参数的第二步是根据计算出的超梯度更新超参数，如公式(4)所示；

4.经过上述2和3，内层和外层参数都经过了一轮更新，是否需要循环进行2和3以及其停止条件需要根据具体应用进行设置。比如在我近期学习的论文中，作者根据early stopping决定外部优化的停止条件，根据训练误差和泛化误差的关系决定内部优化的停止条件。

5. 其他参考资料

关于反向自动微分：
https://stats.stackexchange.com/questions/224140/step-by-step-example-of-reverse-mode-automatic-differentiation

在这里插入图片描述

小结

1.被双层规划以及超参数优化“折磨”了好久，终于能自己比较清晰的整理出一个思路。不过感觉写的还不是很好，还达不到让没接触过的人看起来不费劲的效果。下次要尝试怎么整理的更简单一些~

2.发现越是自己觉得简单的知识点越是弄不明白，在推导公式(14)的时候有好几次分不清梯度和偏导数，还翻出了微积分的课本，被自己傻到~数学太差啦，是时候把机器学习老师推荐的书翻出来啦hhh

要继续加油哇~

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐