CDL（协同深度学习）——一种基于深度学习的推荐系统

此文实际上是读论文《Collaborative Deep Learning for RecommenderSystem》的读书笔记。这一篇论文出自香港理工大学王灏博士，论文讲了一种紧耦合的混合式推荐算法。主要是栈式自编码器sdae和CTR通过贝叶斯图方式结合。1. 概述当前推荐算法主要是基于内容（CB）、协同过滤（CF）、混合算法。基于内容的推荐依靠用户pro

老笨妞

20265人浏览 · 2017-04-11 11:04:34

老笨妞 · 2017-04-11 11:04:34 发布

此文实际上是读论文《Collaborative Deep Learning for RecommenderSystem》的读书笔记。这一篇论文出自香港理工大学王灏博士，论文讲了一种紧耦合的混合式推荐算法。主要是栈式自编码器sdae和CTR通过贝叶斯图方式结合。

1. 概述

当前推荐算法主要是基于内容（CB）、协同过滤（CF）、混合算法。基于内容的推荐依靠用户profile和item的描述做推荐。CF基于过去的的表现和行为推荐。由于种种原因，收集过去的行为比收集用户画像要容易，但CF又有他的局限性，当打分（rating）很稀疏时，预测精度会下降很厉害，同时，新产品的冷启动也是CF的问题。因此，近年来，混合方法应用比较广。

混合方法又分两种：松耦合方式、紧耦合方式。松耦合方式先处理辅助信息，然后，用它为CF提供特征。由于信息的流向是单向的，打分信息无法反馈回来去提取有用的特征。这种方式下，为了提升性能，通常依赖人工提取特征。紧耦合方式，两种方法相互影响，一方面，打分信息指导特征的提取，另一方面，提取出来的特征进一步促进CF的预测能力（例如，稀疏打分矩阵的矩阵因式分解）。两方面的相互影响，使得紧耦合方式可以从辅助信息中自动学习特征，并且能平衡打分信息和辅助信息的影响。这也是紧耦合方法比松耦合方法表现更好的原因。

协同话题回归（CTR）是当下被推崇的紧耦合方法。它是一个整合了Topic model，LDA，CF，概率矩阵分解（PMF）的概率图模型。

CTR能生成可靠，且可判断的结果，即是辅助信息很松散也不会影响结果。

论文讲述了一种多层贝叶斯模型（hierarchical Bayesian model）叫协同深度学习（CDL）。实际上CDL就是把CRT模型和深度学习模型SDAE集合起来，形成一个多层贝叶斯模型。作者用贝叶斯法则表征栈式自编码器（sdae），用深度学习的方式表示content information和rating matrix，使两者双向相互影响。

SDAE在CDL中用于学习特征，实际上更多的深度学习模型可以用进来，如Deep Boltzmann machines,RNN, CNN.

2. 论文要点

(1). CDL可抽取content的深度特征，并捕获content或者user的相似度。这种学习方式不仅可以用于推荐，也可以用于别的地方。

(2). 学习目标不是简单的分类或者reconstruction，本文的目标是通过概率框架用CF做一个更复杂的目标。

(3). 用了最大后验估计(MAP)，CDL贝叶斯法则的抽样，贝叶斯版本的反向传播。

(4). 用贝叶斯模型连接DL和RS。

3. 模型推导

模型如图1，下图中，矩阵Xc扮演的角色是SDAE干净的输入，X0作为加入了噪声的输入矩阵，X1至Xl表示sdae中间各层。SDAE的输出层是Xl，W+是W和b表示权重和偏执。

图1

左边的贝叶斯图的目的是通过内容生成V矩阵，用户信息生成u矩阵，然后通过v和u生成user-item的关联打分矩阵R。这其实就是普通的推荐方法，只是这里，内容通过sdae自动提取特征，这些特征作用于v矩阵。具体推导过程如下：

(1). Sdae在前面的文章中已经写过了，这里不赘述。它的优化目标：

图2

2. 推广Bayesian SDAE，其中，干净输入Xc和噪声X0都是可观察的。

图3

当趋近于无穷大时，式(1)中的高斯分布变成Dirac delta分布中心点在，其中，是sigmoid函数。模型会退化成一个SDAE高斯公式。因此，我们叫他推广Bayesian SDAE.

要注意的是前L/2 层网络扮演encoder，后L/2层网络扮演decoder。当权重延迟纳入考虑，最大后验概率等同于最小化重建误差。

3. CDL

用Bayesian SDAE作为成分，组成CDL的过程如下：

图4

是寄生参数，Cij是置信度参数。中间层充当rating和content的桥梁。带有主题偏执的中间层是开启学习特征和捕获相似度的钥匙。如同推广SDAE中，这里也可以让趋于无穷大。

当趋近于正无穷，CDL的网络就如上面的图1所示。

4. 最大后验估计

基于CDL，所有参数可以被看做随机变量，fully Bayesian方法，例如，markov chain Monte Carlo 等可以用到这里，只是这些的计算代价比较高。综合考虑，EM-style法则用于获得MAP估计。

最大后验概率等同于给出后对U、V、、做大对数似然估计：

图5.

其中，encoder函数表示为，以加入噪音的内容向量为输入计算item的encoding，函数也是以为输入，计算encoding，然后重建item向量。如果网络有6层的话，是第3层的输出，是第6层的输出。

从优化来看，当公式(2)的第4项等于SDAE最小化重建误差时，第3项等同于一个以主题item向量Vj为目标的多层感知机。当

趋于正无穷大时，训练图1可以分裂成训练2个相似的神经网络，这两个网络有公共的输入，但输出不同。这样，网络可以演化成图6所示的网络，第一个网络输出干净数据，第二个网络输出item的打分矩阵。

图6

比率有两种极端，(1)当这个比率趋近于正无穷时，整个系统将退化成一个两步式的模型，在这个模型中SDAE学习到的主题表示会直接被放入CTR中。(2)当比率趋近于0时，SDAE的decoder部分将消失，整个系统变成图7所示的图模型。

图7

当U和V给定，用反向传播方式学习每层的W和b。W和b的梯度表示如下：

图8

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生