迁移学习——Transitive Transfer Learning

《Transitive Transfer Learning》学习Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining如果两个领域之间的重叠很少，那么在这些领域之间进行知识转移就不会有效。受人类传递性推理和学习能力的启发，我们研究了一个新的学习问题:传递性迁

orokok

443人浏览 · 2022-07-28 15:07:52

orokok · 2022-07-28 15:07:52 发布

《Transitive Transfer Learning》学习
Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining

摘要

如果两个领域之间的重叠很少，那么在这些领域之间进行知识转移就不会有效。
受人类传递性推理和学习能力的启发，我们研究了一个新的学习问题:传递性迁移学习(以下简称TTL)。
在这个问题中，两个看似无关的概念可以通过一系列使用辅助概念的中间桥梁连接起来。
TTL的目的是在源和目标域直接共享因子较少的情况下，打破较大的域距离，实现知识的转移。
为了解决TTL问题，我们提出了一个框架，我们首先选择一个或多个域作为源域和目标域之间的桥梁，以实现迁移学习，然后通过这个桥梁进行知识的迁移。

关键词

迁移学习，迁移迁移学习，非负矩阵三因子分解

一、介绍

成功迁移学习的一个关键要求是源领域和目标领域应该相互关联。这种关系可以以相关实例、特性或模型的形式存在。如果找不到直接关系，强行转移知识是行不通的。
我们自然具有通过及物性进行推理和学习的能力。这种能力可以帮助人们连接许多概念，并通过引入一些中间概念作为桥梁，在两个看似不相关的概念之间传递知识。
如图1所示，在TTL中，源域和目标域的公共因子很少，但它们可以通过一些下划线因子被中间域连接起来。

在这里插入图片描述
在本文中，我们提出了一个TTL问题的学习框架。该框架由两个步骤组成。
第一步是找到一个适当的域来连接给定的源域和目标域。
在第一步中，我们提出了一个概率模型，根据域难度和两两贴近度等域特征，选择合适的能拉近源和目标域距离的域。由于从不同的数据源收集不同领域的数据，每对领域可能会有分布转移。
第二步是在各个领域之间进行有效的知识转移。
在第二步中，我们同时考虑了域间的关系和分布转移，提出了一种迁移学习算法，该算法可以学习域间的重叠特征，并通过它们传播标签信息。
表1总结了TTL框架的高级描述
在这里插入图片描述

二、问题定义

在问题中，我们有标记的源域数据 $S=\{(x^s_i, y_i)\}^{n_s}_{i=1}$ ，未标记的目标域数据 $=\{x^t_i\}^{n_t}_{i=1}$ , k未标记的中间域 $D_j =\{x^{d_j}_ i\} ^{n_j}_{ i=1}, j =1，\dots， k, x^∗\in R^{m^∗}$ 是一个 $m^∗$ 维特征向量。
S和T的分布差距较大，直接在它们之间传递知识可能会导致目标领域的性能损失较大。
TTL框架的目的是寻找中间域来桥接S和T，并使T中的性能损失最小化
给定一个域分布间隙测度 $g (\cdot ， \cdot)$ ，

是找到一个满足 $g(S, T |D_i) < g(S, T)$ 的中间域。
通过中间域 $D_i$ 从源域 $S$ 向目标域 $T$ 进行迁移学习;

这是通过学习两个特征聚类函数 $p_{sd}(S, D_i)$ 和 $p_{dt}(D_i, T)$ 来实现的，从而进一步减小 $p_{sd}(S, D_i)$ 和 $p_{dt}(D_i, T)$ 选择的共同特征聚类上的数据分布差距。
源域中的标签信息传播到选定的公共特征集群上的中间数据和目标数据。

三、中间域选择

中间域选择是针对具体问题的，不同的问题可能有不同的策略。
已有研究表明，域难度和域距离是影响两个域间迁移学习性能的两个主要因素。
一方面，直观地说，如果源领域比中间和目标领域难度小，那么从源数据中学习到的模型就具有很高的预测性，很可能在中间和目标领域也实现较高的性能。
另一方面，如果中间域能够拉近源和目标域之间的距离，那么源和目标域之间的知识转移过程的信息损失就会小一些。
因此，本文引入域复杂度和a -距离分别估计域难度和两两域距离。我们总结这些措施如下:
域的复杂度:
在本文中，我们选择域复杂度来衡量难度。域复杂度计算为长尾特征中低频特征的百分比。
这些长尾特征带来了长尾特征分布和显著的特征多样性，给机器自动学习带来了困难。我们计算域复杂度如下:
$cplx(D)=\frac{|\{x|c(x)<t\times n\}|}{m},\tag{1}$
对于非负特征， $c (x)$ 是特征 $x$ 大于零的实例数。 $|\{x|c(x) < t\times n\}|$ 是小于 $t\times n$ 实例出现的特性数。
在本文中，我们用出现在小于10%的实例中的长尾特征的百分比来衡量领域复杂度。对于连续的特征，我们可以用域难度来衡量它们的相对熵
a -距离：
在实际操作中，给定两组域数据 $D_i$ 和 $D_j$ ，我们可以计算a -距离:
$dis_A(D_i,D_j)=2(1-2\min_{h\in \mathcal{H}}error(h|D_i,D_j)),\tag{2}$
$\mathcal H$ 是假设空间， $h$ 是区分不同域数据点的最优代理分类器。本文首先给源数据赋正标签，给目标数据赋负标签，然后用逻辑回归作为代理分类器估计a -距离上的 $error(h|D_i, D_j)$ 。
在[3]中，作者证明了目标域的预测误差受源域误差、a距离和其他常数因素的限制。

给定一个三重 $tr = \{S, D, T\}$ ，我们可以提取六个特征，如表2所示。
在这里插入图片描述

前三个特征总结单个域内特征，后三个特征捕获两两跨域距离。
这些特征共同影响迁移学习算法的成功概率。然而，设计一个通用的域选择标准是不可能的，因为不同的问题可能对这些特性有不同的偏好(权重)。
为了对引入的中间域的成功概率进行建模，我们提出以下逻辑函数:
$f(\mathbf{tr})=\delta(\beta_0+\sum^6_{i=1}\beta_ic_i),\tag{3}$
式中 $\delta(x) = \frac{1}{ 1+e^{−x}}$ 。我们估计参数 $\beta = {\beta_0，\dots，\beta_6}$ 以最大化对数似然，定义为:
$\mathcal L(\beta)=\sum^t_{i=1}l^{(i)}\mathop{log}f(tr_i)+(1-l^{(i)})\mathop{log}(1-f(tr_i)),\tag{4}$
$l^{(i)}$ 是一个二进制标签，表示第 $i$ 个三元组中的中间域是否能够桥接源域和目标域。
我们采用输入 $S$ 和 $T$ 的半监督标签传播算法，获得了目标域上的预测精度。我们也对输入 ${S, D, T\}$ 执行相同的算法，并在目标域上获得另一个精度访问。如果 $acc_{sit} > acc_{st}$ ，则设 $l^{(i)}=1$ ，否则设 $l^{(i)}=0$ 。
标签是由领域特征和传播模型决定的。
一个复杂的模型可能比一个简单的模型接受更多的中间域。
在本文中，我们倾向于使用一个简单的模型，如KNN，它能够为我们提供严格拟合的候选者。
将中间区域选择问题转化为概率估计问题。具有高 $f (t r)$ 的候选中间域更容易被选中。

四、传递知识转移

在第一步中，选择了一个可以连接源域和目标域的中间域，但是这些域之间仍然存在分布转移。
第二步中，我们提出了一种新的迁移学习算法，该算法考虑了所有域之间的传递关系和分布转移。
该算法基于非负矩阵三因子分解，可以同时进行特征聚类和标签传播，因此我们首先给出了一些背景知识。

4.1非负矩阵三因子分解

非负矩阵三因子分解(Non-negative Matrix trifactorization, NMTF)是一种流行而有效的数据聚类和分类技术。
在NMTF中，特征实例矩阵被分解为三个子矩阵。
一般来说，给定一个特征实例矩阵 $X\in R^{m\times n}$ , m为维数，n为实例数。通过求解优化问题，可以得到分解后的子矩阵:
$arg\min_{F,A,G^T}\mathcal L=\|X-FAG^T\|,\tag{5}$
式中 $\|\cdot\|$ 表示矩阵的Frobenius范数。
矩阵 $F\in R^{m\times p}$ 表示特征聚类的信息， $p$ 表示隐藏特征聚类的个数。元素 $F_{i,j}$ 表示第 $i$ 个特征属于第 $j$ 个特征聚类的概率。
矩阵 $G\in R^{c\times n}$ 为实例簇分配矩阵， $c$ 为实例簇数量。如果第 $i$ 行中最大的元素位于第 $j$ 列，则表示第 $i$ 个实例属于第 $j$ 个实例集群。在分类问题中，每个实例簇都可以看作是一个标签类。
$A\in R^{p\times c}$ 是关联矩阵。 $c$ 是实例集群或标签类的数量，对于二元分类问题 $c = 2$ 。
元素 $A_{i,j}$ 是第 $i$ 个特征簇与第 $j$ 个实例簇关联的概率。

4.2迁移学习的NMTF

NMTF也被用作迁移学习算法的基本技术。给定源域S和目标域T, $X_s$ 和 $X_t$ 分别是它们的特征实例矩阵，可以同时分解这两个矩阵，并允许分解后的矩阵共享一些跨域信息(子矩阵)。
形式上，给定两个相关的域S和T，它们的特征实例矩阵可以同时分解为:
$\mathcal L_{ST}=\|X_s-F_sA_sG_s\|+\|X_t-F_tA_tG_t\|\tag{6}\\ =\left\|X_s-[F^1,F^2_s]\begin{bmatrix} A^1\\A^2_s\end{bmatrix}G^T_s\right\|+\left\|X_t-[F^1,F^2_t]\begin{bmatrix} A^1\\A^2_t\end{bmatrix}G^T_t\right\|,$
其中 $F^1\in R^{m\times p_1}_+$ 和 $A^1\in R^{p_1\times c}_+$ 包含源域和目标域共有的公因式。
$F^2_s, F^2_t\in R^{m\times p_2}_+$ 和 $A^2_s, A^2_t\in R^{p_2\times n}_+$ 包含特定领域信息。它们不被域共享。
$p_1、p_2$ 是表示隐藏特性集群数量的两个参数。
$G_s\in R^{n\times c}$ 是标签类矩阵，由源域s的实例标签 ${y_i|i = 1，···，n\}$ 生成。如果第i个实例属于第j类，则 $G_s$ 中的 $(i, j)$ 元素等于1，否则等于0。
$G_s$ 是一个常数矩阵，在分解过程中保持不变。 $G_t$ 是目标域的标签类矩阵。它的元素是我们想通过矩阵分解来学习的变量。
由式(6)可知，源域的标签信息通过共有公因式 $F_1$ 和公因式 $A_1$ 传播到目标域。

4.3TTL迁移学习算法

中间域连接源域和目标域，但对源域和目标域有不同的共同因素。因此，为了捕获这些属性，我们提出了一个耦合的NMTF算法。
在这里插入图片描述
$\begin{aligned} \mathcal{L}=&\left\|X_{s}-F_{s} A_{s} G_{s}^{T}\right\|+\left\|X_{I}-F_{I} A_{I} G_{I}^{T}\right\|+\\ &\left\|X_{I}-F_{I}^{\prime} A_{I}^{\prime} G_{I}^{T}\right\|+\left\|X_{t}-F_{t} A_{t} G_{t}^{T}\right\| \\ =&\left\|X_{s}-\left[\hat{F}^{1}, \hat{F}_{s}^{2}\right]\left[\begin{array}{c} \hat{A}^{1} \\ \hat{A}_{s}^{2} \end{array}\right] G_{s}^{T}\right\|+\left\|X_{I}-\left[\hat{F}^{1}, \hat{F}_{I}^{2}\right]\left[\begin{array}{c} \hat{A}^{1} \\ \hat{A}_{I}^{2} \end{array}\right] G_{I}^{T}\right\|+\\ &\left\|X_{I}-\left[\tilde{F}^{1}, \tilde{F}_{I}^{2}\right]\left[\begin{array}{c} \tilde{A}^{1} \\ \tilde{A}_{I}^{2} \end{array}\right] G_{I}^{T}\right\|+\left\|X_{t}-\left[\tilde{F}^{1}, \tilde{F}_{t}^{2}\right]\left[\begin{array}{c} \tilde{A}^{1} \\ \tilde{A}_{t}^{2} \end{array}\right] G_{t}^{T}\right\| . \end{aligned}\tag{7}$
从上面的等式中，我们可以看到前两项 $(\left\|X_{s}-F_{s} A_{s} G_{s}^{T}\right\|+\left\|X_{I}-F_{I} A_{I} G_{I}^{T}\right\|)$ 是指图2中源域和中间域之间的第一个特征聚类和标签传播，
最后两个术语是指中间域和目标域之间的第二个特征聚类和标签传播。
在等式（7）中，值得注意的是，我们使用不同的分解矩阵将 $X_I$ 分解两次，因为 $X_I$ 分别与 $X_s$ 和 $X_t$ 共享不同的知识。
同时，我们通过标签矩阵 $G_I$ 将这两个分解过程耦合在一起。在不同的分解过程中，中间域中的实例应该具有相同的标签，这是合理的。此外，如果我们用迭代算法求解矩阵分解，在每次迭代中，每个分解过程都能够考虑来自其他分解的反馈。
如果这两个过程分别求解，第一个分解过程将不考虑第二个分解过程的结果，并且可能会遇到偏差问题。在实验中，我们发现耦合策略比分离分解具有更好的性能。
源域中的标签信息通过 $\hat{F}^{1}$ 和 $\hat{A}^{1}$ 传输到中间域，并影响 $G_I$ 的学习结果。关于与 $G_I$ 合并的类标签的知识从中间域通过 $\tilde{F}^{1}$ 和 $\tilde{A}^{1}$ 进一步转移到目标域。

分解矩阵 $F$ 包含隐藏特征簇的信息，表示每个隐藏簇上的特征分布。因此， $F$ 每列的总和必须等于1。
标签矩阵 $G$ 表示每个实例的标签分布。因此，G每行的总和必须等于1。
考虑到这些矩阵约束，我们获得了拟议学习算法的最终优化目标函数：
$\begin{aligned} &\arg \min _{F_{s}, A_{s}, F_{I}, A_{I}, G_{I}, F_{I}^{\prime}, A_{I}^{\prime}, F_{t}, A_{t}, G_{t}} \\ &\text { s.t. } \\ &\sum_{i=1}^{m} \hat{F}^{1}(i, j)=1, \quad \sum_{i=1}^{m} \hat{F}_{s}^{2}(i, j)=1 \\ &\sum_{i=1}^{m} \hat{F}_{I}^{2}(i, j)=1, \quad \sum_{i=1}^{m} \tilde{F}^{1}(i, j)=1 \\ &\sum_{i=1}^{m} \tilde{F}_{I}^{2}(i, j)=1, \quad \sum_{i=1}^{m} \tilde{F}_{t}^{2}(i, j)=1 \\ &\sum_{j=1}^{c} G_{I}(i, j)=1 \quad \sum_{j=1}^{c} G_{t}(i, j)=1 \end{aligned}\tag{8}$
由于等式（8）中的目标函数是非凸的，因此难以获得全局最优解。
因此，我们开发了一种交替优化算法来实现局部最优解。我们首先展示了矩阵 $\tilde{F}^{1}、\tilde{F}_{I}^{2}、\tilde{F}_{t}^{2}和G_t$ 的更新规则。
在这里插入图片描述

我们在表3中总结了矩阵乘法的符号，并显示了如下更新规则：
$\begin{aligned} &\tilde{F}^{1}(i, j)=\tilde{F}^{1}(i, j) \times \sqrt{\frac{\left[\tilde{\mathcal{M}}_{I}^{1}+\tilde{\mathcal{M}}_{t}^{1}\right](i, j)}{\left[\tilde{\mathcal{T}_{I}^{1}}+\tilde{\mathcal{T}}_{t}^{1}\right](i, j)}}, \\ &\tilde{F}_{I}^{2}(i, j)=\tilde{F}_{I}^{2}(i, j) \times \sqrt{\frac{\tilde{\mathcal{M}}_{I}^{2}(i, j)}{\tilde{\mathcal{T}}_{I}^{2}(s, t)}}, \\ &\tilde{F}_{t}^{2}(i, j)=\tilde{F}_{t}^{2}(i, j) \times \sqrt{\frac{\tilde{\mathcal{M}}_{t}^{2}(i, j)}{\tilde{\mathcal{T}}_{t}^{2}(s, t)}}, \\ &G_{t}(i, j)=G_{t}(i, j) \times \sqrt{\frac{\left[X_{t}^{T} F_{t} A_{t}\right](i, j)}{\left[G_{t} A_{t}^{T} F_{t}^{T} F_{t} A_{t}\right](i, j)}} . \end{aligned}\tag{9}$
根据等式（8），矩阵更新后，约束矩阵必须归一化为：
$\begin{array}{ll} \tilde{F}^{1}(i, j)=\frac{\tilde{F}^{1}(i, j)}{\sum_{i=1}^{m} \tilde{F}^{1}(i, j)}, & \tilde{F}_{I}^{2}(i, j)=\frac{\tilde{F}_{I}^{2}(i, j)}{\sum_{i=1}^{m} \tilde{F}_{I}^{2}(i, j)} \\ \tilde{F}_{t}^{2}(i, j)=\frac{\tilde{F}_{t}^{2}(i, j)}{\sum_{i=1}^{m} \tilde{F}_{t}^{2}(i, j)}, & G_{t}(i, j)=\frac{G_{t}(i, j)}{\sum_{j=1}^{c} G_{t}(i, j)} \end{array}\tag{10}$
其他子矩阵的更新规则和归一化方法类似，如附录所示。
我们在算法1中给出了拟议学习算法的过程。
在这里插入图片描述
如等式（7）和附录部分所示， $G_I$ 的更新规则受 $F_I、F'_I、A_I和A'_I$ 的约束。
此外，子矩阵 $\hat F^1、\hat A^1$ 和， $\tilde F^1、\tilde A^1$ 分别受 $X_s、G_s和X_t、G_t$ 的约束。
因此， $G_t$ 的更新规则受到 $X_s$ 和 $G_s$ 的传递约束，并且源域中的判别信息传递到目标域。
$F_s、F_I、F'_I和F_t$ 的更新过程参考图2中的特征聚类。 $G_I和G_t$ 的更新过程参考图2中的标签传播。
我们使用等式（10）中的归一化规则分析等式（9）的收敛性。我们首先分析了在其余参数固定的情况下 $\hat F^1$ 的收敛性。
利用迹运算和frobenius范数 $X \|^ 2=tr（X^T X）=tr(XX^T)$ 的性质，我们将目标函数等式（8）重新表述为拉格朗日函数，并保留与 $\tilde F^1$ 相关的项：
$\begin{aligned} &\mathcal{L}\left(\tilde{F}^{1}\right)=\operatorname{tr}\left(-2 X_{I}^{T} \tilde{F}^{1} \tilde{A}^{1} G_{I}^{T}+2 G_{I} \tilde{A}^{1^{T}} \tilde{F}^{1^{T}} \tilde{\mathcal{N}}_{I}\right) \\ &+\operatorname{tr}\left(-2 X_{t}^{T} \tilde{F}^{1} \tilde{A}^{1} G_{t}^{T}+2 G_{T} \tilde{A}^{1^{T}} \tilde{F}^{1^{T}} \tilde{\mathcal{N}}_{t}\right) \\ &+\operatorname{tr}\left[\lambda\left(\tilde{F}^{1^{T}} \mathbf{1}_{m} \mathbf{1}_{m}^{T} \tilde{F}^{1}-2 \mathbf{1}_{p} \mathbf{1}_{m}^{T} \tilde{F}^{1}\right)\right] \end{aligned}\tag{11}$
其中 $\lambda\in R^{p\times p}$ 是对角矩阵。 $\mathbf{1}_{m}$ 和 $\mathbf{1}_{p}$ 分别是维数为m和p的向量。
引理1。使用等式（9）中的更新规则和等式（10）中的归一化规则，等式（11）中的损失函数将单调减少。
引理1的证明如附录所示。
其他项的收敛性可以用同样的方法证明。
根据更新规则和乘法更新规则[13]的收敛性分析，算法1中的每个更新步骤不会增加等式（8）。目标的下限为零。证明了该转移学习算法的收敛性。

五、实验

在本节中，我们执行三个测试。

第一个测试旨在分析中间域和模型参数如何影响TTL框架的性能，并从经验上评估收敛速度。这是通过对从20个新闻组数据集生成的6个合成文本分类任务进行实验来实现的。
第二个测试旨在当源域和目标域数据具有完全不同的结构时评估TTL框架。实验是在文本到图像数据集上进行的。数据集中所有任务的中间域都是从Flicker中爬取的。
第三个测试旨在测试框架中中间域选择算法和转移学习算法的效率。实验在一些文本情感分类任务上进行。不同领域的数据具有相同的特征空间，但分布不同。此外，每对源域和目标域都有许多候选中间域。

5.1基线的方法

在综合文本分类和情感分类任务中，所有数据都具有相同的特征空间。我们将提出的框架与三种基线方法进行了比较，以验证其有效性。

第一个基线是支持向量机，它是一种经典的监督学习算法。我们使用支持向量机的线性核，并在LibLinear中实现。
第二种是三重转移学习（TriplexTL）算法，这是一种使用非负矩阵传递函数实现的最先进的转移学习方法。
另一种转移学习算法是LatentMap，它也是最先进的转移学习算法。它通过将数据映射到低维潜在空间，使两个域的联合分布更加紧密。

这三种基线方法在两种不同的设置下进行了测试。

第一种是直接转移。
第二种设置是两阶段迁移学习过程。

这种朴素的传递学习策略与提出的传递学习算法之间的主要区别在于没有执行迭代特征聚类和标签传播。
在文本到图像数据集中，数据具有不同的特征空间。
上述基线无法处理这些数据。因此，我们将TTL与两种异构转移学习（HTL）算法进行了比较。

第一个基线是联合迁移
第二个是HTLIC

实验中的所有方法都执行了十次，我们报告了它们的平均性能和方差

5.2综合文本分类任务

5.2.1 20新闻组数据集

通过层次结构，对于每个类别，所有子类别都被组织为三个部分，其中每个部分都有不同的子类别，并且具有不同的分布。因此，它们可以分别被视为源域、中间域和目标域。
因此，源域和目标域没有重叠词。该数据集的问题设置如图3所示，其中具有纹理的块表示特征具有值。
在这里插入图片描述
我们在表4中详细描述了这六项任务。这些任务中的特征维度从2405到5984不等。这些任务中的实例数约为7000个。

5.2.2综合任务性能

在实验中，我们将提出的框架与基线方法在六个文本分类任务上进行了比较。
文本分类任务非常具有挑战性。源域和目标域没有重叠的特征。
在这里插入图片描述
提出的TTL框架实现了最佳性能。这可以归因于TTL不仅通过使用中间域数据连接源域和目标域，而且还具有迭代特征聚类和标签传播循环，其中源域提供的知识可以深度重塑和重组以用于目标域。

5.2.3不同中间域的性能

我们还对“comp-vs-talk”任务进行了一些实验，以在以下情况下测试所提出的TTL框架：

标记的中间数据量增加；
源/目标和中间域之间的连接变得较弱。

在第一种设置中，我们将TTL与将知识从标记的中间域数据转移到目标数据的Triplex $TL_{IT}$ 进行比较。
从结果可以看出，当标记的中间域数据量较小时，TTL的性能优于Triplex $TL_{IT}$ 。然而，当有大量标记的中间数据时，Triplex $TL_{IT}$ 的性能更好。
结果是合理的，因为当我们有大量数据接近并适应目标数据时，我们不需要从遥远的领域寻求帮助。
在第二种设置中，删除了中间域中的一些重叠特征。我们将TTL框架与Triplex $TL_{IST}$ 进行了比较。
从结果中我们可以看到，性能随着功能的删除而降低。原因是，当删除更多特征时，中间域和源/目标域之间的连接变得较弱。
在这里插入图片描述

5.2.4模型分析

我们在“compvs-talk”任务上进行了一个实验，并将迭代次数设置为100。我们将等式（8）的目标值显示为图5（a）中的虚线，并看到在大约5到10次迭代后，目标值几乎没有变化。
结果表明，经过60-80次迭代后，性能没有变化。其他任务的收敛趋势类似。
在这里插入图片描述
我们还分析了模型参数 $p$ 。我们将 $p$ 从5变为100，以测试它如何影响分类性能。实验也在“comp-vs-talk”任务上进行。
对于不同的任务，我们可以使用十倍交叉验证来选择值。在本文中，我们在实验中简单地将p设置为30。
在这里插入图片描述

5.3文本到图像的分类任务

5.3.1 NUS-WISE数据集

它包含45个文本到图像任务。每个任务由1200个文本文档、600个图像和1600个共现文本图像对组成。
文本词汇表大小为500。每个文本数据由500维的词向量表示。对于图像数据，我们提取SIFT特征，并在512维特征向量中表示每个图像。

5.3.2文本到图像任务的性能

由于HTLIC需要一些标记的目标域数据来训练支持向量机分类器，在文本到图像任务中，我们假设所有的源域数据和少量的目标域数据都被标记。
我们将目标域中的标记数据量从5变为25，并在图6（a）中显示了所有任务的平均分类精度，从中可以看出，当使用更多标记目标数据时，每个算法的性能都会提高。
提出的TTL框架获得了最佳性能。
原因是TTL考虑了三个域之间的分布转移，并明确利用了可传递的共享知识，用于从源域到目标域的标签传播。
在这里插入图片描述
我们还使用25个标记的目标域数据报告了每个任务的详细结果。每个任务的分类精度和方差如图6（b）所示。

5.4情感分类任务

5.4.1情感分类数据集

我们实验中使用的情感分类数据集由12个不同类别的亚马逊产品评论组成，每个产品评论由评论文本和情感标签组成。
一半的数据是正面评价，另一半是负面评价。每个域中的数据大小从2000到20000不等。每个域的词汇量约为20000。我们为每个域随机抽样约2000个实例。

5.4.2中间域选择

为了评估所提出的中间域选择算法，我们将标签从标记的源域数据传播到未标记的目标域数据，并评估目标域数据的预测精度 $acc_{st}$ 。
我们还通过相同的算法将标签从标记的源域数据传播到未标记的中间域和目标域数据，并评估对目标域数据的预测精度 $acc_{sit}$ 。
在实验中，我们使用带RBF核的半监督学习[30]进行标记传播。如果 $acc_{sit}>t\times acc_{st}，（t>1.0）$ ，这意味着中间域数据能够连接源域和目标域，我们为三元组分配了一个正标签。否则，我们分配一个负标签。在实验中，我们设置 $t = 1.03$ ，在1320个三元组中获得102个阳性标记。
然后我们将所有三元组随机分成两部分，每个部分包含相同数量的正三元组和负三元组。
第一部分用于训练中间域选择算法，第二部分用于测试。
由于数据是不平衡的，我们随机抽样一些负三元组以形成平衡数据集。我们做了十次随机抽样。每次，我们使用10倍交叉验证来评估中间域选择算法在第一部分的性能。平均精度为 $0.845 \pm 0.034$ 。

5.4.3情感分类任务性能

从表6中的结果可以看出， $Triplex_{ST}$ 与 $SVM_{ST}$ 的结果几乎相同。这里的直接转移学习算法没有实现性能改进。这是因为源域和目标域具有较大的分布差距。TTL和 $Triplex_{SIT}$ 优于 $Triplex_{ST}$ 。我们还可以看到，TTL总是获得最佳性能。
在这里插入图片描述

六、相关工作

我们讨论了两类与传递性迁移学习相关的研究：迁移学习和多任务学习。
迁移学习:
主要有两种典型的算法。

第一种是基于实例的知识转移，它从源域为目标域选择或调整相关数据的权重。
第二种是基于特征的知识转移，它将源数据和目标数据转换为公共特征空间，其中数据遵循相似的分布。

与以往的迁移学习不同，传递性迁移学习并不假设源域和目标域应该是相关的。
这意味着，当现有的标记源域和相关源域不足以改进目标域时，传递学习可以更通用、更有用
多任务学习:
算法同时学习多个任务，并相互增强每个任务的分类结果。
它假设不同的任务共享一些自然的“紧凑”表示，例如共享数据集群或子空间反映的信息。
例如，在实践中，不同任务的分类器可以设计为共享一些全局参数，甚至是一个全局分类器。
然而，这些方法需要为每个任务提供相当多的标记数据来了解关系。
相反，即使中间域和目标域都未标记，传递性迁移学习也可以工作。

七、结论和未来工作

在本文中，我们研究了一个新的问题，传递迁移学习（TTL），它通过一些中间域将知识从源域转移到间接相关的目标域。我们提出了一个TTL框架来解决这个问题。
未来工作：
这是一个新的学习问题，它提出了几个问题，供今后进一步探索。例如，当源和目标需要一个域字符串来建立连接时，如何找到中间域字符串以实现最大传输是一个有价值的研究问题。此外，将该算法扩展到多个源域可能是一种有趣的方法，可以将传递迁移学习推广到更强大的领域。
__

Reference

Transitive Transfer Learning

附录

在这里插入图片描述
我们总结了表7中的一些其他矩阵乘法符号，并给出了 $\hat F_s、\hat A_s、\hat F_I和\hat A_I$ 的更新规则如下：
$\begin{aligned} &\hat{F}^{1}(i, j)=\hat{F}^{1}(i, j) \times \sqrt{\frac{\left[\hat{\mathcal{M}}_{s}^{1}+\hat{\mathcal{M}}_{I}^{1}\right](i, j)}{\left[\hat{\mathcal{T}}_{s}^{1}+\hat{\mathcal{T}}_{I}^{1}\right](i, j)}}, \\ &\hat{F}_{s}^{2}(i, j)=\hat{F}_{s}^{2}(i, j) \times \sqrt{\frac{\hat{\mathcal{M}}_{s}^{2}(i, j)}{\hat{\mathcal{T}}_{s}^{2}(i, j)}}, \\ &\hat{F}_{I}^{2}(i, j)=\hat{F}_{I}^{2}(i, j) \times \sqrt{\frac{\hat{\mathcal{M}}_{I}^{2}(i, j)}{\hat{\mathcal{T}}_{I}^{2}(i, j)}}, \\ &\hat{A}^{1}(i, j)=\hat{A}^{1}(i, j) \times \sqrt{\frac{\left[\hat{F}^{1^T}\left(X_{s} G_{s}+X_{I} G_{I}\right)\right](i, j)}{\left[\hat{F}^{1^T}\left(\hat{\mathcal{N}}_{s} G_{s}+\hat{\mathcal{N}}_{I} G_{I}\right)\right](i, j)}}, \\ &\hat{A}_{s}^{2}(i, j)=\hat{A}_{s}^{2}(i, j) \times \sqrt{\frac{\left[\hat{F}_{s}^{2^T} X_{s} G_{s}\right](i, j)}{\left[\hat{F}_{s}^{2^T} \hat{\mathcal{N}}_{s} G_{s}\right](i, j)}}, \\ &\hat{A}_{I}^{2}(i, j)=\hat{A}_{I}^{2}(i, j) \times \sqrt{\frac{\left[\hat{F}_{I}^{2^T} X_{I} G_{I}\right](i, j)}{\left[\hat{F}_{I}^{2^T} \hat{\mathcal{N}}_{I} G_{I}\right](i, j)}}, \\ &G_{I}(i, j)=G_{I}(i, j) \times \sqrt{\frac{\left[X_{I}^{T} F_{I}^{\prime} A_{I}^{\prime}+X_{I}^{T} F_{I} A_{I}\right](i, j)}{\left[G_{I}A_I^{\prime T} F_{I}^{\prime T} F_{I}^{\prime} A_{I}^{\prime}+G_{I} A_{I}^{T} F_{I}^{T} F_{I} A_{I}\right](i, j)}} \end{aligned}\tag{12}$
$\hat F_s和\hat F_I$ 的归一化方法为：
$\begin{aligned} \hat F_s(i,j)=\frac{\hat F_s(i,j)}{\sum^m_{i=1}\hat F_s(i,j)},\hat F_I(i,j)=\frac{\hat F_I(i,j)}{\sum^m_{i=1}\hat F_I(i,j)} \end{aligned}\tag{13}$

收敛性分析

我们首先分析了剩余参数固定时 $\hat F^1$ 的收敛性。利用迹运算和frobenius范数 $X \|^ 2=tr（X^T X）=tr(XX^T)$ 的性质，我们将目标函数等式（8）重新表述为拉格朗日函数，并保留与 $\hat F^1$ 相关的项：
$\begin{aligned} &\mathcal{L}\left(\hat{F}^{1}\right)=\operatorname{tr}\left(-2 X_{s}^{T} \hat{F}^{1} \hat{A}^{1} G_{s}^{T}+2 G_{s} \hat{A}^{1^{T}} \hat{F}^{1^{T}} \hat{\mathcal{N}}_{s}\right) \\ &+\operatorname{tr}\left(-2 X_{I}^{T} \hat{F}^{1} \hat{A}^{1} G_{I}^{T}+2 G_{I} \hat{A}^{1^{T}} \hat{F}^{1^{T}} \hat{\mathcal{N}}_{I}\right) \\ &\quad+\operatorname{tr}\left[\lambda\left(\hat{F}^{1^{T}} \mathbf{1}_{m} \mathbf{1}_{m}^{T} \hat{F}^{1}-2 \mathbf{1}_{p} \mathbf{1}_{m}^{T} \hat{F}^{1}\right)\right], \end{aligned}\tag{14}$
其中 $λ\in R^{p\times p}$ 是对角矩阵。 $\mathbf{1}_{m}$ 和 $\mathbf{1}_{p}$ 分别是维数为 $m_s$ 和p的向量。等式（14）的微分为：
$\begin{aligned} &\frac{\partial \mathcal{L}\left(\hat{F}^{1}\right)}{\partial \hat{F}^{1}}=\operatorname{tr}\left(-2 X_{s} G_{s} \hat{A}^{1^{T}}+2 \hat{\mathcal{N}}_{s} G_{s} \hat{A}^{1^{T}}\right) \\ &\quad+\operatorname{tr}\left(-2 X_{I} Y_{t} \hat{A}^{1^{T}}+2 \hat{\mathcal{N}}_{t} G_{t} \hat{A}^{1^{T}}\right) \\ &\quad+2 \mathbf{1}_{m}\left(\mathbf{1}_{m}^{T} \hat{F}^{1}-\mathbf{1}_{p}^{T}\right) \lambda, \end{aligned}\tag{15}$
然后，我们获得临时更新规则：
$\hat{F}^{1}(i, j)=\hat{F}^{1}(i, j) \times \sqrt{\frac{\left[X_{s} G_{s} \hat{A}^{1^{T}}+X_{I} G_{I} \hat{A}^{1^{T}}+\mathbf{1}_{m} \mathbf{1}_{p}^{T} \lambda\right](i, j)}{\left[\hat{\mathcal{N}}_{s} G_{s} \hat{A}^{1^{T}}+\hat{\mathcal{N}}_{I} G_{I} \hat{A}^{1^{T}}+\mathbf{1}_{m} \mathbf{1}_{m}^{T} \hat{F}^{1} \lambda\right](i, j)}},\tag{16}$
等式（16）中的临时更新规则能够单调减少等式（14）。
因此，仍有一个变量 $\lambda$ 需要进一步计算。考虑到等式（8）中的约束，我们发现 $\lambda$ 用于满足 $\hat F^1$ 的每列总和必须等于1的条件。
我们使用等式（13）中的归一化方法对 $\hat F^1$ 进行归一化。该方法满足与 $\lambda$ 无关的条件。
之后， $\mathbf{1}_{m}\mathbf{1}_{p}^T\lambda$ 等于 $\mathbf{1}_{m}\mathbf{1}_{m}^T\hat F^1\lambda$ 。通过去掉包含 $\lambda$ 的项，我们得到等式（12）中的最终更新规则，该规则在收敛性方面近似等于等式（16），因为 $\mathbf{1}_{m}\mathbf{1}_{p}^T\lambda$ 和 $\mathbf{1}_{m}\mathbf{1}_{m}^T\hat F^1\lambda$ 都是常数。在等式（12）中使用更新规则也会单调减少等式（14）的值。
我们可以使用类似的方法来分析等式（8）中其他项的更新规则和归一化方法的收敛性。
根据[13]中的乘法更新规则，使用等式（9）和等式（12）中的更新规则，并使用等式（10）和等式（13）中的归一化方法，等式（8）中的目标函数值不会增加。目标函数的下限为零。保证了算法1的收敛性。