返回 登录
8

ICML 2016精选论文

阅读9584

作者简介:洪亮劼,Etsy数据科学主管,前雅虎研究院高级经理。长期从事推荐系统、机器学习和人工智能的研究工作,在国际顶级会议上发表论文20余篇,长期担任多个国际著名会议及期刊的评审委员会成员和审稿人。
本文为《程序员》原创文章,未经允许不得转载,更多精彩文章请订阅2017年《程序员》

人工智能和机器学习领域的学术论文汗牛充栋。每年的各大顶级会议、研讨班录用好几千篇论文,即便是亲临现场也很难追踪到所有前沿信息。在时间和精力有限的情况下,选择精读哪些论文,学习哪些热门技术就成为了AI学者和从业人员头疼的问题。本栏目就是要帮助大家筛选出有意思的论文,解读出论文的核心思想,为精读提供阅读指导。

6月在纽约举行的国际机器学习顶级大会International Conference on Machine Learning 2016(ICML 2016)引起了很多从业人员的极大关注。其中,有部分深度学习相关的论文已经被不少人详细研读。那么,录取论文多达三百多篇的大会还有哪些论文值得关注呢?笔者从其中精选出5篇有意思的文章,推荐给读者。

DCM Bandits: Learning to Rankwith Multiple Clicks

这篇文章来自Adobe Research团队的Branislav Kveton和Zheng Wen。他们在最近一两年做了一系列尝试结合Click Model和Multi-Armed Bandit(MAB)的工作。以前的MAB专注于从一个物品集合中选择合适的单个物品,无法直接应用到对一个Ranked List进行推荐。而在IR传统中,Click Model又是对Ranked List建模的利器。因此,把两个方向结合起来就成为了一个挑战。

这篇文章提出了一个如何把Dependent Click Model(DCM)应用到MAB框架下的思路,基于之前的一篇采用Cascade Model(CM)与MAB结合的文章扩展而来。简单来说,CM假设用户从上到下查看列表结果,一旦找到一个满意的结果,点击之后就结束了整个浏览过程。CM的核心就是整个列表有一个点击。虽然这个模型非常流行,也是最简单的用户点击模型,但用户只有一个点击的假设明显不符合现实情况。于是DCM就把CM扩展到了多个点击的情况。

DCM的假设,是用户有一定概率被某个物品所吸引,然后点击离开;也可以点击之后继续浏览;除此之外,用户也可以不被吸引而选择离开。相比CM,DCM更能反映现实,但参数也更多,更难学习。基于DCM的MAB,是把点击模型和MAB结合起来,从而为用户提供一个列表结果。用户按照DCM的假设和这组排序结果交互,产生一个或者多个点击。点击虽然是可见的,但是真正的Reward是不可见的。于是整个问题就是如何在和系统的长期交互中最大化Reward,并且能够估计DCM的一些参数。整个算法比较容易理解。和其他MAB的论文一样,文章大部分的篇幅是证明。虽然这篇文章没有比较复杂的实验,但其基本思路对做推荐系统的研究人员应该有一定的启发。

Polynomial Networks and FactorizationMachines: New Insights and EfficientTraining Algorithms

这篇文章来自日本NTT Communication ScienceLabs的一批学者。文章目的是把FactorizationMachines(FM)和Polynomial Networks(PN)这两种看上去很不一样的模型统一到一个理论框架下。在这个框架下,系统能够提出统一的优化算法来解这些模型。PN是一个含一层隐Unit的Feedforward Neural Network。这篇文章的第一个贡献是把FM和PN都写成了Kernel Learning框架下的某种特例。那么,两种模型的区别就在于Kernel的选择。

文章指出,PN可以看做是选用了Homogeneous Polynomial Kernel(HPK),而FM则可以看做是选用了ANOVA Kernel。文章又花了一些篇幅证明在ANOVA Kernel的表达下,FM的Multilinearity和Multi-Convex性质。这部分内容虽然在原始的FM论文中有所触及,但这篇文章的处理,为FM的方便优化提供了理论依据。然后,文章把估计参数的问题转化成了一个估计LowRank Symmetric Tensor的问题。这样就把FM和PN的参数估计给统一起来了。接着文章提出使用Coordinate Descent的算法来解决这个统一后的Multi-Convex问题。作者在Last.fm和MovieLens上
都做了实验,展示了提出的方法有效性。

总的来说,这篇文章比较有理论价值,那就是把FM和PN统一在一个框架下。

Diversity-Promoting BayesianLearning of Latent Variable Models

这篇文章由CMU和清华大学学者合作完成。文章主要探讨了如何让Latent Variable Model(LVM)学出来的参数有差异度,也就是尽量互不相同。作者是从以下角度来启发这个问题的。首先,在Maximum Likelihood(MLE)等学习方法的影响下,模型一般只能抓住经常出现的Pattern,而对于一些不经常出现的Pattern则可能没有那么在意,因为这些Pattern对于Likelihood并没有那么多贡献。同时,对于LVM来说,Component的数目,也就是我们常说的K,一般很难确定,多了可能会让模型难以学习,少了则无法概括复杂的数据。从这个角度来说,需要抓住数据的方方面面信息,用少量的K来达到表达的丰富性,这就需要LVM的各个Component尽量丰富多彩,从而达到信息冗余较少的目的。

如何Encode这个信息呢?这篇文章的核心思想是用Pairwise Angle来表达。也就是说,一组Component Vector比较Diverse的情况,就是它们之间两两Pairwise Angle比较大的时候。这个思路是和之前比较火热的Determinantal Point Process(DPP)思路不太一样。有了这个定义以后,作者采取了两种思路来影响模型。第一,就是直接是用为Prior。作者展示了如何定义这样的Prior,并且通过Variational Inference和MCMC来学习。第二,作者展示了如何通过Posterior Regularization来影响结果,促成Diversi ty。作者最后通过Mixture of Experts的例子以及实验来显示了学到的模型的优越性。这篇文章的主要贡献是提供了除DPP以外的一种参数多样化思路。

Learning Representations for Counterfactual Inference

这篇文章的作者来自纽约大学和瑞典的Chalmers University of Technology。大家知道,Offline A/B Testing或者Unbiased Offline Evaluation for Multi-armed Bandit的核心其实是做Causal Inference,也就是说对已经发生的事情在其他的状况下做推理。其中一个最基本的也是最重要的信息,就是需要知道对于一个个体而言,到Treatment或者Control或者多种不同的Action之间的条件概率。如果知道了是怎样的Distribution产生了实验数据,而且也知道目标Distribution,那就很容易使用Inverse Propensity Weighting等技巧来做Causal Inference。遗憾的是,对于很多所谓的观测数据(Observational studies),我们并不知道或者是没法重现实验数据产生的过程,也就是说并不知道那个条件概率。那么在这个基础上做CausalInference就很困难。

一种解决方法当然是去估计这个条件概率,然后利用一个模型来做。这方面可以看Lihong Li和Thorsten Joachims最近的一些文章。

另一个就是本文的思路,通过Feature学到一组适合做Causal Inference的中间Representation。具体来说,学到这组Representation的目标函数需要满足以下条件:

  • 尽可能地Match已经发生了的历史信息,这类似一般的优化Training Error;
  • 尽可能地让Counterfactual的Prediction结果接近训练集里最靠近的Factual结果;
  • 尽可能地让Counter factual和Factual的Distribution学出来平衡。

总体说来,这些目标还是很直观的。这篇文章另外一个比较有价值的点是RelatedWork。作者详细阐述了一般的Re-weighting的方法和之前机器学习界做的Covariate Shift的工作的异同,值得一看。

Scalable Discrete Sampling as Multi-Armed Bandit

这篇文章的第一作者Yutian Chen目前在GoogleDeepMind工作,博士生导师是Max Welling。从一个Discrete Distribution中快速有效地做Sampling在很多Graphical Model中都有应用,最近几年比较热的研究,是在Topic Model中,快速产生很多样本。不过其他文章主要是侧重于大D(也就是大的状态空间)而不是大N(大的数据空间),这篇文章则是侧重在大N,比如从Posterior里产生样本,很多时候就需要对所有的数据点进行运算。

这篇文章的核心思想来自下面两个方面:

  • Discrete Sampling可以通过一个叫Gumbel-Max Trick的方法,转换成为一个最优化问题;
  • 大N的Discrete Sampling和转换后的最优化问题,可以进一步转换成为一个MAB的“识别最优Arm”(Optimal Arm Identification)问题。

于是,文章的核心就是扩展现有的算法,提出了三个新的算法来识别最优Arm,从而间接从Discrete Distribution里产生样本。比较有意思的是,文章提出的一个未来研究方向,是如何同时做大N大D的Sampling,这应该是大多数应用遇到的实际问题。

订阅2016年程序员(含iOS、Android及印刷版)请访问 http://dingyue.programmer.com.cn
图片描述

评论