deepwalk论文及算法阅读笔记

论文题目：《DeepWalk: Online Learning of Social Representations》出版时间2014年6月这篇文章是网络表示学习的经典文章，下面将简单介绍这篇文章的算法思想，如有不对的地方，欢迎指正！！！！这篇论文提出的算法可以将网络中的节点用低维度，连续的向量表示，以便进行进一步机器学习本文提出的算法的主要贡献有：1、使用随机游走的方法学习到的...

abc15766228491

7858人浏览 · 2018-03-11 15:35:30

abc15766228491 · 2018-03-11 15:35:30 发布

这篇文章是网络表示学习的经典文章，下面将简单介绍这篇文章的算法思想，如有不对的地方，欢迎指正！！！！

这篇论文提出的算法可以将网络中的节点用低维度，连续的向量表示，以便进行进一步机器学习

本文提出的算法的主要贡献有：

1、使用随机游走的方法学习到的顶点表示，会更加具有健壮性（robust）

2、deepwalk甚至可以在只给出部分网络的情况下，学习到更好的顶点表示

3、这种方法更加有利于并行化

定义：

E⊆（V,E），这里V是网络的节点集合，E是边的集合，E⊆(VV)。给出一个部分带标签的社区网络：G=(V,E,X,Y)。其中，X∈R^(|V|S)，这里S是特征向量，就是每个点的特征数，Y∈R^(|V||y|)这里y是标签的集合（就是有几类）。我们的目标是学习一个XE∈R^(|V|d)。这里d就是我们学习到的低维的隐藏的表示。这里的意思就是说，这里d维的向量中，包含了社区结构，我们可以通过这个向量进行进一步的训练和对整个社区的进一步的学习。

这个算法学习到的主要的优点有：

1、自适应性：在新的点加进来之后，不用重新学习。

2、社区表示性：向量相似的点，对应在网络中，被分在同一个类的几率比较大。

3、低维度性：产生低维的向量可以加速进一步的分类及其他问题的求解。

4、连续性：在连续的空间中的顶点表示，可以进一步增强分类的效果。

下面是一些相关的算法的基础

1、随机游走：定义，从根节点出发，随机游走的结果定义为向量Wvi，向量中的每个值是当前顶点随机选择的下一步的邻居。

2、幂率：如果在整个网络中的点遵循幂率分布，那么，在某个随机游走的点上也遵循幂率分布。

幂率科普（网上资源+个人理解）如下图：简单来说，就是，拥有大量的度数的点的数量是少的，拥有少量的度数的点的数量是多的，就是，好学生是少的，一般的学生是多的。。。。

3、语言模型：假设，有个文章，我们给出一个词序列：W=（w0,w1,……..,wn），我们在训练的时候要最大化这个概率：Pr(wn| w0,…,wn-1)。同样，放在随机游走的序列中，我们要最大化这个概率：Pr(Vi| (v1,v2,…,vi-1))。我们的目标是学习一个函数（隐含的表示方法）φ，这个φ对应一个点的d维表示，那么：上面的概率值可以表示为：Pr(Vi| (φ(v1),….,φ(vi-1))。但是，这个不太好最大化。于是，可以用以下方法：1、用文章预测缺失词，化为用词预测上下文；2、上下文对应于给出的词的左右两边；3、移除出现的词的顺序问题。最后，模型要求最大化一个词在上下文出现的概率，在没有给出词的情况下（就是说，输出一个向量，这个向量的每个概率表示这个向量的这个位置表示的词出现在这个位置的概率）。

最终，优化问题变成了最小化下面这个式子（个人理解，这里用log主要是将连乘变为连加，有利于优化）：

最终产生的顶点的向量表示，由于随机游走，比较近的点游走到的概率比较大，在网络上比较相似的点的表示会比较相似，这样就可以用于其他机器学习算法了。

算法

DEEPWALK

deepwalk

这个算法由两个步骤组成：1、随机游走，2、更新步骤。

算法参数：一个图G(V,E)，游走窗口大小w，产生的向量的长度（顶点表示的维度）d，对于每个点走的次数γ，走的长度t。

输出：一个顶点表示矩阵φ，大小为|V|*d

下面逐行介绍：

1：初始化φ

2：从V构建一个二叉树T（应该是用来做分层softmax的）

3-9是算法核心，外层循环代表了每个顶点产生多少个随机序列，内层循环表示对每个点产生一个Wi，并用SkipGram进行更新φ。

SkipGram

这个算法是语言模型中，最大化窗口w中出现的词的概率的方法（梯度下降），如上图所示

外层循环是对这个序列中的每个词进行操作，内层循环是对每个词的窗口大小为w的词序列进行操作。具体操作是用一个似然函数J(φ）表示φ，然后求导，用梯度下降的方法更新，（这个α应该是学习率）。

Hierarchical Softmax

由于直接计算概率Pr(uk|φ(vj))不好计算，因此，如果把顶点放在二叉树的叶子上，那么预测的问题，就变成了最大化下面这个概率

路径被定义为这样一个序列：计算复杂度由O(|v|)变为O(log|v|)，可以加速训练过程。

优化：

这里优化使用随机梯度下降（SGD），这里的学习率α一般为0.25，然后线性减少。

通俗来讲，v1在v3和v5之间，那么，hierarchical Softmax会计算Pr(v3|φ(v1)和Pr(v5|φ(v1))的概率，而φ则向着v1的上下文是v3和v5的“方向”更新。

Emmmmm算法部分基本就是这些啦，后面的算法变形和实验部分，就不贴出来了，这篇文章将自然语言处理中的word2vec的方法应用到了deepwalk的社交网络上，也算是经典论文了。

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生