返回 登录
0

2015人工智能重大突破

阅读9364

今年在人工智能和机器学习领域取得的进展令人印象深刻。这些领域中受到认可的进展一年比一年多,但我们仍然能够赶上这速度。如今这些工作的大部分都建立在年初其他团队的成果之上,大多数其他领域与此不同,它们之间的引用跨越了几十年。

要写一篇这个领域广泛发展的总结,几乎不可避免地会导致大量的拟人描述,这篇总结确实如此。使用这些比喻仅仅是为了方便为谈论这些功能。要记住的一点是,即使许多这些功能听起来可以思考样,但是它们通常与人类认知工作原理不尽相同。目前的系统只能完成功能性的、机械式的任务,系统不具有思考的能力,尽管这种情况在逐步减少,但由于不能独立思考,系统能做的事情仍旧很有限。敬告:在阅读这篇文章时,这些功能可能会从天方夜谭到平淡无奇。

2015年人工智能重大的突破分为5类:跨环境抽象(abstracting across environments),直觉概念理解(intuitive concept understanding),创造性抽象思维(creative abstract thought),虚构画面(dreaming up visions),和灵巧精细动作技能(dexterous fine motor skills)。我会突出讲述一些重要的事件,它们推动了今年人工智能的发展。

跨环境抽象(Abstracting Across Environments)

人工智能领域的一个长期目标是实现人工通用智能,一个单一的学习程序可以同时在完全不同的领域进行学习和行动,可以转换一些学习到的技巧和知识,比如学会做饼干,并将这种技巧用在做布朗尼蛋糕上,甚至比以前做的更出色。在这种通用领域取得显著进展的是Parisotto、Ba和Salakhutdinov。他们在DeepMind上建立了开创性的DQN,论文发表在今年的早些时候的《自然》杂志上,它可以学习玩很多不同的雅达利游戏,并且玩的还不错。

视频https://youtu.be/rbsqaJwpu6A

这个团队并没有在每个游戏上使用全新的网络,而是将深度多任务强化学习与深度迁移学习结合,这样可以在不同类型的游戏上使用同样的深度神经网络。这不仅仅会使得单个实例可以成功地在多个不同游戏中使用,而且还能更好更快地学习新游戏,因为它记得其他游戏的一些模式。比如,它可以更快地学习新的网球游戏,因为它在玩乒乓球的时候已经形成了这样的概念——用球拍击球是有意义的抽象。这还不算是通用智能,但是它是达到通用智能的一块垫脚石。

不同模式推理是今年的又一大亮点。艾伦人工智能研究所和华盛顿大学一直致力于研究测试对话AI,经过多年的研究,已经从四年级水平测试提升到了八年级水平测试,今年他们宣布已经开发出一套系统可以解决美国高考中的几何学部分的问题。这些几何测试包括图表组合(combinations of diagrams),补充信息(supplemental information)和词语问题(word problems)。在更小范围的AI中,这些不同的形式将典型地分别分析,基本上根据不同的环境。这套系统结合了计算机视觉和自然语言处理,将它们内嵌在同样的结构化形式体系中,然后应用集合推理来回答选择题,它的表现可以与美国高二年级学生平均水平媲美。

直觉概念理解(Intuitive Concept Understanding)

在过去的几年里,深度学习产生了一种更为通用的多模式概念方法:亚符号知识(Subsymbolic knowledge )和推理(reasoning)可以隐式地被系统理解,而不需要明确的编程甚至明确的表示。今年,对于我们人类可以涉及到的概念的亚符号理解的研究已经取得了相当好的进展。这一进展有助于研究古老符号的来源——这些符号或文字的意思如何形成。这种日益流行用来解决这一问题的方式使用了联合嵌入方法(joint embeddings )——深度分布式表示,同一概念上的不同形式或看法,非常紧凑地放置在一个高维度的向量空间中。

去年,这项技术被运用到了例如自动撰写图片标题这些功能上,而今年,来自斯坦福大学和特拉维夫大学的团队将这一基本思想沿用到了联合嵌入图像和三维形状上,以桥接计算机视觉和图形。Rajendran等人则使用联合嵌入,以不同方式和不同语言,一次性支持多种有意义相关映射的聚集。随着这些嵌入变得更加复杂和详细,它们就可以成为更多复杂人工智能广为使用的技术。Ramanathan等人已经利用它们创建了一个系统,可以从一组相片和字典的不同行为类型中学习有意义的关系模式。

随着单一系统做的事情越来越多,以及将深度学习作为基础,数据特征和所学概念之间的界限将会消失。这种深度特征实现的另一个例子是,来自康奈尔和WUStL的团队,使用一种降维的深度网络权重形成卷积特征表面,可以简单地在该表面滑动,从而自动地、真实地对照片的某一方面做有意义的改动,例如,改变人物的面部表情或者年龄或者为照片着色。

图片描述

深度学习技术的一个障碍是,它们需要大量的训练数据来产生良好的结果。相反,人类往往能够从单个例子学习。Salakhutdinov、Tenenbaum和Lake已经克服了这个困难,他们使用了一项技术叫做从单实例中使用贝叶斯程序归纳法进行人类层次的概念学习(human-level concept learning through Bayesian program induction from a single example)。该系统然后能够绘制符号的变化形式,而且与人类绘制出来的难以区分

创造性抽象思维(Creative Abstract Thought)

除了了解简单的概念,深度学习还要把握因果结构的各个方面——理解想法是如何相互配合来引导事件发生或是以时间为主线讲述一个故事——并能够基于这些理解创建事物。基于来自于DeepMind神经图灵机和Facebook记忆网络的基本思想,深度学习和新记忆架构的结合在这个方向会大有前途。这些结构为深度神经网络中的每个节点提供了记忆的简单接口。

Kumar和Socher的动态记忆网络改进了原有的记忆网络,能够更好地支持关注(attention)和序列理解。与原来的网络一样,该系统可以阅读故事,并回答关于故事的问题,隐式地学习20种推理,比如演绎,归纳,时间推理,以及路径寻找。从来没有对任何这种推理进行编程。Weston等人最近开发的端到端记忆网络加入了每个输出符号多计算跳跃的能力,扩展了建模能力和表达能力,可以捕获乱序的,长依赖性,以及无序集的事物,进一步提高了这种任务的精确性。

程序本身当然也是数据,它们当然会使用复杂的因果关系,结构,语法,类序列化性质,所以编程在这种方式上已经成熟。去年,神经图灵机使得深度学习编程成为可能。今年,Grefenstette等人展示了程序如何被转换或者从样本输出中获得产出,比神经图灵机的效率高了许多,它使用的是一种新类型的基于记忆的递归神经网络(RNNs),节点只需访问不同的数据结构,比如堆栈和队列。DeepMind的Read和de Freitas最近也展示了他们的神经程序员解释器如何表示可以控制高层次和特定领域功能的低层次程序。

另一个精通理解上下文时间,并用此创建新产品的例子是,今年开发的一个尚未成熟但具有创意的视频摘要功能。首尔国立大学的Park和Kim开发了一种新架构,称为连贯递归卷积网络(coherent recurrent convolutional network),将它用来从图像序列中生成新的流动的文本故事。

图片描述

另一个包括抽象思维中因果关系理解,假设和创造性的重要形式是科学假设。塔夫茨大学的一个团队将遗传算法和遗传途径模拟结合开发了一套系统,它是第一个发现科学理论的人工智能系统,它发现为什么扁形虫身体能够如此容易地再生。在短短几天内它就发现了科学家一个世纪都没能发现的理论。这给那些询问“我们为什么想要让AI首先要有求知欲”的人一个响亮的回答。

虚构画面(Dreaming Up Visions)

今年AI并不止停留在编写程序,游记,科学理论上。现在有些AI已经能够进行想象了,或者使用技术术语,产生幻觉(hallucinate),同时也是意义深远的比喻。深度学习不仅擅长模式识别,而且还擅长模式理解,因此创建新模式也很在行。

来自麻省理工和微软研究院的一支团队开发了一套深度卷积反图像网络(deep convolution inverse graphic network),它有一种特殊训练的技术,可以让图形代码层的神经元分化成图像中有意义的转变。这么做,他们用深度学习构建一个图形引擎,可以用新二维图像来理解三维图像,可以以真实照片的角度想象,如果改变拍摄角度或光照诸如此类的因素,图像会是什么样。

来自纽约大学和Facebook的一支团队设计了一种方法从其他图像中它看过的有意义的合理的元素来生成逼真的新图像。使用金字塔形对抗网络——其中一些试图产生逼真的图像,而其他的来评判这些图像的逼真度——他们的系统在想象新图像方面做的越来越好。虽然网上的例子清晰度相当低,但是在离线的时候我看到了十分相关的高清晰度的结构。

此外,2015年这方面重大的事件还有,基于简短英文描述的图像进行深度想象全新影像的能力。虽然场景渲染有象征意义,一些反对的声音存在很久了,今年已经见证了纯神经网络系统使用非确切编程的方式来做这些。多伦多大学的团队将关注机制(attention mechanisms )运用于图像生成,基于描述的各个成分的意思,处理每次请求的attention不同。所以,机器人现在可以梦到电动羊了。

图片描述

今年,甚至在新动画短片中的计算机想象力方面也取得了令人印象深刻的进展。美国密歇根大学的团队创建了一个深度类推系统(deep analogy system),可以识别范例中复杂的隐含关系,并且能够将这种关系当成查询案例的可生性转变。他们在许多合成应用上用到了这个系统,但是最令人印象深刻的要属这个案例(下面视频中10:10-11:00的时间段),基于一张从未见过目标角色的单个静止的图像,和不同角度的不同角色的对比视频短片,生成了一个全新的动画角色视频短片。

视频:http://msrvideo.vo.msecnd.net/rmcvideos/259628/259628.mp4

这里使用图像生成是为了便于演示,他们开发的计算想象技术可以运用于各种领域和模式。比如用于声音或音乐方面。

敏捷和灵巧精细动作技能(Agile and Dexterous Fine Motor Skills)

今年AI进展并不局限于电脑屏幕。

今年的早些时候,一支德国的灵长类学团队记录下了灵长类手部动作与对应的神经活动情况,然后他们可以基于脑部活动来预测会做出什么细微动作。他们同样可以教机器手臂这些细微动作技能,旨在设计神经增强的假肢。

在今年年中,一支来自加州大学伯克利分校的团队宣布了一种更为通用简便的教机器人细微动作技巧的方法。他们采用了基于深度强化学习的引导策略搜索,让机器人能够开瓶盖,用锤子背部去除木材上的钉子,以及其他日常行为。这种行为对人类来说微不足道,但对于机器来说非常困难,这支团队的系统执行这类任务的灵巧度和速度可以与人类媲美。它实际上是通过手眼协调,经过几次尝试后通过练习,改善手法来完成这些任务。

回顾2015

这绝不是今年AI和机器学习(ML)领域卓著功勋的完整列表。今年也有许多更基础的发现和发展,包括我认为比上面所列更有革命性的发展。但这些还处于发展初期,所以不在此文所选范围内。

今年无疑产生了一些令人印象深刻的进展。但是我们希望在2016年能够看到更多。来年,我希望看到更根本的深度架构,符号和亚符号更好地整合,一些很棒的对话系统,最终称霸围棋游戏的AI,深度学习被用于更精细机器人规划和电机控制,高品质视频摘要,和更富有创造性和更高分辨率的虚构图像,这都是其中一瞥。更让人兴奋的还将会是我们意料之外的发展。

原文地址:The Top A.I. Breakthroughs of 2015(译者/刘翔宇 审校/赵屹华 责编/仲浩)

译者介绍:刘翔宇,中通软开发工程师,关注机器学习、神经网络、模式识别。

评论