迁移学习——Balanced Distribution Adaptation for Transfer Learning

《Balanced Distribution Adaptation for Transfer Learning》学习2017 IEEE International Conference on Data Mining迁移学习通过利用源领域的知识对标签较少或没有标签的目标领域进行标注，取得了良好的效果。现有的方法往往寻求最小化域之间的分布差异，如边缘分布、条件分布或两者兼有。然而，现有算法往往对这两种

orokok

2312人浏览 · 2022-08-17 23:08:13

orokok · 2022-08-17 23:08:13 发布

《Balanced Distribution Adaptation for Transfer Learning》学习
2017 IEEE International Conference on Data Mining

摘要

迁移学习通过利用源领域的知识对标签较少或没有标签的目标领域进行标注，取得了良好的效果。现有的方法往往寻求最小化域之间的分布差异，如边缘分布、条件分布或两者兼有。然而，现有算法往往对这两种距离一视同仁，导致实际应用中性能不佳。此外，现有的方法通常假设数据集是平衡的，这也限制了它们在不平衡任务上的性能，而不平衡任务在实际问题中很常见。
为了解决分布适应问题，本文提出了一种新的迁移学习方法——平衡分布适应(BDA)，该方法可以自适应地利用边缘分布差异和条件分布差异的重要性，现有的几种迁移学习方法可以作为平衡分布适应的特例。
在此基础上，我们提出了一种新的加权均衡分布适应(W-BDA)算法来解决迁移学习中的类不平衡问题。W-BDA不仅考虑了域之间的分布适应性，而且自适应地改变了每个类别的权重。
**关键词:**迁移学习，领域适应，分布适应，类不平衡

一、介绍

现有的分布适应方法大多只适应边缘分布[5]或条件分布[6]或两者都适应。
然而，在现有的方法中，这两种分布通常被平等对待，而彼此的重要性并没有被利用。
因此，如何自适应地利用每个分布的重要性是一个关键问题。
如何处理迁移学习中类不平衡的情况是另一个重要挑战。
在本文中，我们提出了两种新的方法来解决上述两个问题。对于分配适应，我们提出均衡分配适应(BDA)。BDA不仅可以适应域间的边缘分布和条件分布，而且可以利用这两种分布的重要性，从而有效地调整它以适应特定的迁移学习任务。
我们还提出了一种新的加权均衡分布适应(W-BDA)算法来解决迁移学习中的类不平衡问题。所提出的W-BDA在进行分布适应时，可以自适应地改变各类别的权重。
综上所述，我们的贡献主要有三方面:

我们提出了一种新的迁移学习方法，称为BDA，以平衡边缘分布和条件分布的适应。
我们还提出了一种新的方法W-BDA，通过扩展BDA来处理迁移学习中常见的班级不平衡问题。
我们在5个图像数据集上进行了广泛的实验，以评估BDA和W-BDA方法，表明它们优于其他先进的方法。

二、相关工作

本文提出的BDA和W-BDA主要与基于特征的迁移学习方法有关。

2.1联合分布适应

提出了共同选择特征和保留结构特性的方法。
Long等人[2]提出了联合分布适应方法(joint distribution adaptive method, JDA)来匹配域之间的边缘分布和条件分布。
还有一些对JDA进行了扩展，增加了结构一致性[4]、域不变聚类[7]和目标选择[13]。
这些方法倾向于忽略两个不同分布之间的重要性，只是将它们加在一起。然而，当两个分布之间存在较大的差异时，这些方法无法评估每个分布的重要性，在大多数情况下可能不能很好地推广。
我们的工作能够调查每个分布的重要性。因此，它可以更一般化地用于具有复杂数据分布的迁移学习场景。

2.2类不平衡问题

之前的样本重加权方法[14]只学习了特定样本的权重，而忽略了不同类别的权重平衡。
[15]开发了一种最紧密公共空间学习(CCSL)方法来适应跨域权重。CCSL是一个实例选择方法，而我们的是一个基于特性的方法。
在[16]中提出多集特征学习来学习判别特征。[3]提出了在目标域上构造源参考集合的加权最大均值差异，但它只适应源域的先验，而我们的方法可以同时适应源域和目标域的先验。
[17]解决了目标域有一些标签时的不平衡问题，而在我们的方法中，目标域没有标签。[18]根据他们的预测调整了不同样本的权重，而我们的工作重点是调整每个类的权重。

三、平衡分布适应

首先，我们介绍问题的定义。然后，我们提出了均衡分配适应(BDA)方法。最后介绍了加权BDA (W-BDA)方法。

3.1问题定义

给定有标记的源域 $\{\mathbf x_{s_i}, \mathbf y_{s_i}\}^n_{i=1}$ ，无标记的目标域 $\{\mathbf x_{t_j}\}^m_{j=1}$ ，假设特征空间 $X_s = X_t$ ，标签空间 $Y_s = Y_t$ ，但边际分布 $P_s(\mathbf x_s) \ne P_t(\mathbf x_t)$ ，条件分布 $P_s(\mathbf y_s | \mathbf x_s) \ne P_s(\mathbf y_t | \mathbf x_t)$ 。迁移学习的目的是利用源域 $D_s$ 学习 $D_t$ 的标签 $\mathbf y_t$ 。
平衡分布适应通过自适应地最小化域之间的边际分布和条件分布差异来解决迁移学习问题，并处理阶级不平衡问题，即最小化:

$P_s(\mathbf x_s)$ 和 $P_t(\mathbf x_t)$ ，
$P_s(\mathbf y_s | \mathbf x_s)$ 和 $P_s(\mathbf y_t | \mathbf x_t)$ 之间的差异。

3.2平衡分布适应

迁移学习方法通常寻求适应域之间的边缘分布和条件分布,具体来说，这是指最小化距离:
$D(D_s,D_t)\approx D(P(\mathbf x_s),P(\mathbf x_t))\\ +D(P_s(\mathbf y_s | \mathbf x_s),P_s(\mathbf y_t | \mathbf x_t))\tag{1}$
具体来说，BDA利用一个平衡因子μ来利用分布的不同重要性:
$D(D_s,D_t)\approx (1-\mu)D(P(\mathbf x_s),P(\mathbf x_t))\\ +\mu D(P_s(\mathbf y_s | \mathbf x_s),P_s(\mathbf y_t | \mathbf x_t))\tag{2}$
其中 $\mu\in[0,1]$ ，当 $\mu\rightarrow 0$ 时，表示数据集差异较大，边缘分布占主导地位;当 $\mu\rightarrow 1$ 时，表明数据集是相似的，因此条件分布的适应性更重要。
为了计算出 $P (x_t|y_t)$ ，我们利用训练在 $D_s$ 上的基分类器对 $D_t$ 进行预测，得到 $D_t$ 的软标签。软标签可能不太可靠，所以我们反复改进它们。
为了计算公式(2)中的边际分布和条件分布差异，我们采用最大均值差异(MMD)[5]对两种分布差异进行经验估计。
从形式上讲，式(2)可以表示为
$D(D_s,D_t)\approx (1-\mu)\left\|\frac{1}{n}\sum^n_{i=1}\mathbf x_{s_i}-\frac{1}{m}\sum^m_{j=1}\mathbf x_{t_j}\right\|^2_{\mathcal H} \\ +\mu\sum^C_{c=1}\left\|\frac{1}{n_c}\sum_{\mathbf x_{s_i}\in D^{(c)}_s}\mathbf x_{s_i}-\frac{1}{m_c}\sum_{\mathbf x_{t_j}\in D^{(c)}_t}\mathbf x_{t_j}\right\|^2_{\mathcal H}\tag{3}$
式中， $\mathcal H$ 表示再生核希尔伯特空间(RKHS)， $c\in\{1,2，···，c\}$ 是不同的类标签， $n, m$ 表示源/目标域中的样本数量， $D^{(c)}_s$ 和 $D^{(c)}_ t$ 分别表示源和目标域中属于 $c$ 类的样本。 $n_c = |D^{(c)}_s |， m_c = |D^{(c)}_ t |$ ，分别表示属于 $D^{(c)}_s和D^{(c)}_ t$ 的样本数量。第一项为域之间的边际分布距离，第二项为条件分布距离。
进一步利用矩阵技巧和正则化，可以将式(2)形式化为:
$\min \operatorname{tr}\left(\mathbf{A}^{\top} \mathbf{X}\left((1-\mu) \mathbf{M}_{0}+\mu \sum_{c=1}^{C} \mathbf{M}_{c}\right) \mathbf{X}^{\top} \mathbf{A}\right)+\lambda\|\mathbf{A}\|_{F}^{2}\\ s.t. \mathbf{A}^{\top} \mathbf{X} \mathbf{H} \mathbf{X}^{\top} \mathbf{A}=\mathbf{I}, \quad 0 \leq \mu \leq 1\tag{4}$
式(4)中有两项:具有平衡因子的边际分布和条件分布的适应项(项1)和正则化项(项2)。 $\lambda$ 是正则化参数 $\|\cdot\|^2_F$ Frobenius规范。
式(4)涉及到两个约束:第一个约束确保转换后的数据 $(\mathbf A^T\mathbf X)$ 应该保持原始数据的内部属性。第二个约束表示平衡因子 $\mu$ 的范围。
更具体地说，式(4)中， $\mathbf X$ 表示由 $\mathbf x_s$ 和 $\mathbf x_t$ 组成的输入数据矩阵， $\mathbf A$ 表示变换矩阵， $\mathbf I\in\mathbb R^{(n+m)×(n+m)}$ 为单位矩阵， $\mathbf H$ 为中心矩阵，即 $\mathbf H = \mathbf I−(\frac{1}{n})\mathbf 1$ 。与工作[2]类似， $\mathbf M_0$ 和 $\mathbf M_c$ 是MMD矩阵，可以通过以下方式构建:
$\left(\mathbf{M}_{0}\right)_{i j}= \begin{cases}\frac{1}{n^{2}}, & \mathbf{x}_{i}, \mathbf{x}_{j} \in \mathcal{D}_{s} \\ \frac{1}{m^{2}}, & \mathbf{x}_{i}, \mathbf{x}_{j} \in \mathcal{D}_{t} \\ -\frac{1}{mn}, & \text { otherwise }\end{cases}\tag{5}$
$\left(\mathbf{M}_{c}\right)_{i j}= \begin{cases}\frac{1}{n_{c}^{2}}, & \mathbf{x}_{i}, \mathbf{x}_{j} \in \mathcal{D}_{s}^{(c)} \\ \frac{1}{m_{c}^{2}}, & \mathbf{x}_{i}, \mathbf{x}_{j} \in \mathcal{D}_{t}^{(c)} \\ -\frac{1}{m_{c} n_{c}}, & \begin{cases}\mathbf{x}_{i} \in \mathcal{D}_{s}^{(c)}, \mathbf{x}_{j} \in \mathcal{D}_{t}^{(c)} \\ \mathbf{x}_{i} \in \mathcal{D}_{t}^{(c)}, \mathbf{x}_{j} \in \mathcal{D}_{s}^{(c)}\end{cases} \\ 0, & \text { otherwise }\end{cases}\tag{6}$
学习算法:记 $\Phi = (\phi_1， \phi_2，···，\phi_d)$ 为拉格朗日乘子，则式(4)的拉格朗日函数为
$L=\operatorname{tr}\left(\mathbf{A}^{\top} \mathbf{X}\left((1-\mu) \mathbf{M}_{0}+\mu \sum_{c=1}^{C} \mathbf{M}_{c}\right) \mathbf{X}^{\top} \mathbf{A}\right)\\ +\lambda\|\mathbf{A}\|_{F}^{2}+\operatorname{tr}((\mathbf I-\mathbf{A}^{\top} \mathbf{X} \mathbf{H} \mathbf{X}^{\top} \mathbf{A})\Phi)\tag{7}$
$\partial L/\partial A = 0$ ，优化可以导出为广义特征分解问题
$\left( \mathbf{X}\left((1-\mu) \mathbf{M}_{0}+\mu \sum_{c=1}^{C} \mathbf{M}_{c}\right) \mathbf{X}^{\top}+\lambda\mathbf I \right)\mathbf{A}=\mathbf{A}^{\top} \mathbf{X} \mathbf{H} \mathbf{X}^{\top} \mathbf{A}\Phi\tag{8}$
最后，通过求解式(8)，求出最优变换矩阵 $\mathbf A$ 的d最小特征向量。
估计 $\mu$ :目前，我们通过在实验中搜索 $\mu$ 的值来评价 $\mu$ 的性能。对于实际应用，我们建议通过交叉验证得到最佳 $\mu$ 。

3.3加权平衡分布

在本节中，我们提出了一个更稳健的类不平衡问题的条件分布近似:
$\begin{aligned} &\left\|P\left(y_{s} \mid \mathbf{x}_{s}\right)-P\left(y_{t} \mid \mathbf{x}_{t}\right)\right\|_{\mathcal{H}}^{2} \\ =&\left\|\frac{P\left(y_{s}\right)}{P\left(\mathbf{x}_{s}\right)} P\left(\mathbf{x}_{s} \mid y_{s}\right)-\frac{P\left(y_{t}\right)}{P\left(\mathbf{x}_{t}\right)} P\left(\mathbf{x}_{t} \mid y_{t}\right)\right\|_{\mathcal{H}}^{2} \\ =&\left\|\alpha_{s} P\left(\mathbf{x}_{s} \mid y_{s}\right)-\alpha_{t} P\left(\mathbf{x}_{t} \mid y_{t}\right)\right\|_{\mathcal{H}}^{2} \end{aligned}\tag{9}$
在技术上，我们利用两个域的类先验来近似 $\alpha_s$ 和 $\alpha_t$ 。
由于BDA完全能够适应 $(\mathbf x_s)$ 和 $(\mathbf x_t)$ ，我们在这一步不估计它们，并假设它们是不变的。
然后，我们为每个类构造一个权值矩阵 $\mathbf W_c$ :
$\left(\mathbf{W}_{c}\right)_{i j}= \begin{cases}\frac{P\left(y_{s}^{(c)}\right)}{n_{c}^{2}}, & \mathbf{x}_{i}, \mathbf{x}_{j} \in \mathcal{D}_{s}^{(c)} \\ \frac{P\left(y_{t}^{(c)}\right)}{m_{c}^{2}}, & \mathbf{x}_{i}, \mathbf{x}_{j} \in \mathcal{D}_{t}^{(c)} \\ -\frac{\sqrt{P\left(y_{s}^{(c)}\right) P\left(y_{t}^{(c)}\right)}}{m_{c} n_{c}}, & \left\{\begin{array}{l} \mathbf{x}_{i} \in \mathcal{D}_{s}^{(c)}, \mathbf{x}_{j} \in \mathcal{D}_{t}^{(c)} \\ \mathbf{x}_{i} \in \mathcal{D}_{t}^{(c)}, \mathbf{x}_{j} \in \mathcal{D}_{s}^{(c)} \end{array}\right. \\ 0, & \text { otherwise }\end{cases}\tag{10}$
其中 $P\left(y^{(c)}_s\right)$ 和 $P\left(y^{(c)}_t\right)$ 分别表示源域和目标域上c类的先验类。
将Eq.(10)嵌入到BDA中，得到W-BDA的轨迹优化问题:
$\min \operatorname{tr}\left(\mathbf{A}^{\top} \mathbf{X}\left((1-\mu) \mathbf{M}_{0}+\mu \sum_{c=1}^{C} \mathbf{W}_{c}\right) \mathbf{X}^{\top} \mathbf{A}\right)+\lambda\|\mathbf{A}\|_{F}^{2}\\ s.t. \mathbf{A}^{\top} \mathbf{X} \mathbf{H} \mathbf{X}^{\top} \mathbf{A}=\mathbf{I}, \quad 0 \leq \mu \leq 1\tag{11}$
**注:**BDA的式(5)与W-BDA的式(10)在精神上非常相似。它们的不同之处在于:

BDA的Eq.(5)只考虑了每个类的样本数量，而Eq.(10)也考虑了类的先验。
在处理类失衡时，Eq.(10)比Eq.(5)提供了更精确的条件分布近似。

**核化:**当应用于非线性问题时，我们可以使用一个核映射 $\psi: \mathbf x \mapsto\psi(\mathbf x)$ 和一个核矩阵 $\mathbf K = \psi(\mathbf x)^T\psi(\mathbf x)$ 。核矩阵 $\mathbf K \in\mathbb R^{(n+m)×(n+m)}$ 可以用线性核或RBF核构造。
综上所述，算法1详细介绍了BDA和W-BDA方法。
在这里插入图片描述

四、实验

4.1数据集

我们采用了5个广泛使用的数据集:USPS + MNIST, COIL20和Office + Caltech。表1显示了数据集的详细信息。
在这里插入图片描述

4.2比较的方法

我们选择了六种最先进的比较方法:

1最近邻分类器(1NN)
主成分分析(PCA) + 1NN
测地流核(GFK) [19] + 1NN
转移成分分析(TCA) [5] + 1NN
联合分布适应(JDA) [2] + 1NN
转移子空间学习(TSL) [20] + 1NN

在这些方法中，1NN和PCA是传统的学习方法，而GFK、TCA、JDA和TSL是最先进的迁移学习方法。

4.3实现细节

采用PCA、TCA、JDA、TSL和BDA进行降维，再采用1NN进行降维。
对于GFK，在得到测地线流核后，应用1NN。对于BDA和W-BDA， $\mu$ 在 ${0,0.1，···，0.9,1.0\}$ 中搜索。
由于BDA在较宽的参数值范围内都能达到稳定的性能，因此在对比研究中，
我们设 $d = 100$ ;
对于MNIST + USPS / Office + Caltech数据集 $\lambda = 0.1$ 对于COIL20数据集 $\lambda = 0.01$ 。
对于基于核的方法，我们使用线性核。
JDA和TCA的迭代次数设为 $T = 10$ 。

4.4BDA的绩效评估

4.4.1分类精度

我们在16个跨领域学习任务上测试了BDA和其他比较方法的性能。结果如表2所示，基于表2，我们可以得出如下观察结果。
在这里插入图片描述

BDA优于大多数现有的方法(16个任务中的15个)。
JDA可以看作是BDA的一个特例。
TCA也是BDA $(\mu = 0)$ 的一个特例，因为它只适应边缘分布。因此，TCA的性能不如JDA和BDA。
TSL仅适应边缘分布，对分布密度依赖性强。
GFK算法在目标识别任务中具有较好的性能。

4.4.2分配适应的有效性

通过与TCA和JDA两种分布适应方法的比较，进一步验证了BDA的有效性。具体地说，我们通过Eq.(4)计算MMD距离来研究它们的性能。
在这里插入图片描述

图1(a)和图1(b)分别表示了TCA、JDA和BDA随迭代次数增加的MMD距离和精度。根据结果，我们可以观察到:

所有方法的MMD距离都可以减小。这说明了TCA、JDA和BDA的有效性;
TCA仅适应边缘分布距离，不需要迭代，MMD距离降低不大;
JDA的MMD距离明显大于BDA，因为BDA可以通过 $\mu$ 平衡边缘分布和条件分布的重要性;
BDA达到最佳性能。

4.5平衡系数的有效性

我们评估了平衡因子 $\mu$ 的有效性。我们在一些任务上运行 $\mu\in\{0,0.1，···，1.0\}$ 的BDA，并与最佳基线方法进行性能比较。结果如图2所示。
在这里插入图片描述
这表明在跨域学习问题中， $\mu$ 对于平衡边缘分布和条件分布是非常重要的。因此，BDA更有能力取得良好的业绩。

4.6加权BDA的有效性

我们选择一些类分布高度不平衡的任务，比较W-BDA与BDA和JDA的性能。表格III展示了6个任务的分类精度。注意，为了进行比较，任务1 ~ 4上的类相当不平衡，而任务5 ~ 6上的类相当平衡。
在这里插入图片描述
此外，BDA和W-BDA还有两个参数:特征维数 $d$ 和正则化参数 $\lambda$ 。由于页面限制，它们的敏感性评估被省略。在实际实验中，BDA和W-BDA对这两个参数的鲁棒性较好

总结

平衡域间的概率分布和类分布是迁移学习中的两个重要问题。
本文提出均衡分布适应(BDA)，自适应地权衡边缘分布适应和条件分布适应的重要性。
因此，它可以显著提高迁移学习的性能。此外，我们考虑通过提出加权BDA (W-BDA)来解决迁移学习的类不平衡问题。
在5个图像数据集上的广泛实验表明，我们的方法优于几种最先进的方法。
在未来，我们将继续在这两个方面进行探索:通过制定更多的策略来利用分布和处理类失衡问题。