返回 登录
1

重磅 | 李飞飞最新演讲:ImageNet后,我专注于这五件事——视觉理解、场景图,段落整合、视频分割及CLEVR数据集

2017中国计算机大会(CNCC2017)于10月26日在福州海峡国际会展中心开幕,大会为期3天。

而就在今天上午,李飞飞、沈向洋、汤道生、马维英等重磅大咖纷纷登台演讲。

据悉,斯坦福大学人工智能实验室和视觉实验室主任李飞飞此前已被邀请两届,今年终于来参会,带来了其实验室的最新研究成果——实时视频描述。李飞飞从5.4亿年前的寒武纪大爆发开始讲起,强调了视觉是智能的基石;而作为微软全球执行副总裁微软五名核心成员之一的沈向洋博士也参加了会议,他也带来了犀利的观点:得语音者得天下

AI科技大本营第一时间将李飞飞英文演讲及沈向洋的中文演讲整理出来,附PPT截图,希望对你有帮助。

李飞飞:ImageNet之后,计算机视觉何去何从?

图片描述

今天,我就想和大家来分享实验室的思考和一些比较新的工作。

由于我在国外生活的时间比较长,我可能说英文比说中文要好一点儿。所以,我就要用英文来做这个演讲,偶尔会插一些中文词。谢谢大家。

今天我的主题演讲主要是关于计算机视觉。

要聊这个话题,首先,让我们先从5.4亿年前说起。

那个时候,地球基本上没有陆地,全是海洋。为数不多的低等的生物就生活在海洋里,当有食物漂过来时,这些生物就赶紧将其吃掉以维持生命。

自那起的1000万年间,动物的种类和数量迎来了大爆发 。生物的种类从少有的几种,迅速增长为几千种之多。这在历史上被称为“寒武纪大爆发”。那么,是什么引起了这场大爆发呢?

几年前,澳大利亚的科学家 Andrew Parker找到了答案。

大约在5.4亿年前,有的动物开始进化出了简陋的眼睛。对于一个个体来说,这没有什么大不了,不就是多了一个小孔,这个小孔能接收光线,仅此而已。但这对于整个地球而言,可就是一件改变整个生命历程的大事。

就因为有眼睛,动物们看得见食物了。他们可以从被动获取食物,变成主动寻找食物。他们学会了隐藏,学会了伺机而动,也学会了快速出击。

于是,动物的存活率大大提升,而大幅提升的存活率又大大促进了生物的进化。可以这么说,正是因为视觉的诞生,才有了寒武纪大爆发。

从那以后,动物们开始进化出各种各样的视觉系统。实际上,视觉已经变成了动物大脑中最为重要的感知神经系统。因为发达的视觉系统,让他们的生命不断延续,种类不断增多。

将目光收回到人类。

视觉让人们看到这个世界,看懂这个世界,让人们有能力不停地交流、合作、互动。

在人类的大脑中,视觉神经系统非常重要。甚至可以这么说,视觉是人类智能的基石。

正因为如此,我对于计算机视觉这项工作才尤为着迷。这可是人工智能的关键环节啊。可是,计算机视觉应该从哪些地方模仿人类的视觉呢?哪些才是能影响到计算机视觉的里程碑式的事件呢?而且人类对目标识别到底有多擅长?

早在60年代和70年代,认知心理学家以及视觉科学家就指出,人类拥有的视觉系统无与伦比。

有一个来自麻省理工大学的著名实验是这样的,我现在要向大家连续播放多帧画面,每帧的显示时间仅100微秒。其中,只有一帧的画面里有人。你们能找出来吗?可以举手示意我一下。

这可不是一个IQ测试,大家尽可以放轻松。

实验的结果是:大多数的人都可以找到这一帧,看出在这一帧中,有个人立在那里。这太让人惊叹了!

实验之前,你不会知道这个人长什么样,是男人还是女人,这个人穿着什么衣服,是什么姿态。但是,你的视觉系统却能在如此短的时间内快速地找到这个信息。

1996年,神经学家Simon J. Thorpe及团队发布了一项研究,通过脑电波来观察人脑对于图像识别的速度。他发现,仅需 100 微秒,大脑就会发出一道区分信号,对画面中的物体是否为动物做出判断。对于复杂目标对象的处理能力,构成了人类视觉系统的基础。

这个实验对于计算机视觉的影响巨大。回望20年前,我们能清楚地看到,正是对目标物体的识别的研究促进了整个计算机视觉的大发展。

最近,大家都很了解与ImageNet有关的先进的图像识别。其实,从2010年到2017年,ImageNet挑战了传统的图像分类。这八年间,我们的社区取得了令人瞩目的成绩,将错误率从 28% 降低到了2.3%。在攻克图像识别的难题的征途上,计算机视觉的研究者们共同努力,取得了非凡的成绩。当然,解决图像识别难题的重要里程碑之一是在 2012 年,这是 CNN 第一次在利用大数据进行监督学习领域展现出令人印象深刻的能力。从这一点出发,我们开始进入深度学习革命的新纪元。

但是,我今天的主题并不在ImageNet。固然,ImageNet对人工智能有重要的贡献,但是我们必须往前看,看看有什么技术可以超越ImageNet。图像是视觉体验的基本要素。但是,在图像之上,还有一些需要探索的东西。

视觉关系理解

比如,有两张图片,当我遮挡住其余部分,只留出一两个要素时,你会觉得它们很相似。但是,当你看到整张图片时, 你会发现,它们呈现了两个完全不同的场景。

这说明图像理解非常关键。它超越了ImageNet,和其所代表的图像识别。

那么,视觉关系的预测或者理解难在哪?

当我们给计算机一张图片,我们需要算法通过识别关键对象来定位对象的位置以及预测对象之间的关系,这就是视觉关系预测的任务。

过去有一些针对视觉关系的深度研究。但是大部分此方向的研究都局限于一些特定的或者普遍的关系。而现在,由于计算机在数据和深度学习能力上的提高,我们可以对视觉关系进行更深层次的研究。

我们使用了一个卷积神经网络视觉表示的联结,以及一个估计交互式视觉组件之间关系的语言模块。

我不会深入这个模型的细节,只是简单地介绍其结果。我们的模型去年发表在ECCV,能够估计特殊关系,对比关系,非对称关系,动词和动作关系,以及位置关系。因此,我们能够估算出场景的丰富关系,不只是简单的感知对象。

相比于目前最先进的技术,我们对基本测试有很好的性能表现。我们不仅能够进行关系预测,实际上还能对未知的关系进行理解(zero-shot understanding)。例如,在我们的训练数据集中,我们能发现坐在椅子上的人或者站在地面上的消防队员。但在测试时,我们有人坐在消防栓上等类似的关系的图片,而实际训练时很难收集大量的训练实例。但我们的模型可以做到对未知东西的学习及理解。这里还有一个例子,马戴帽子,实际上另一个关系人骑马或人戴帽子更为常见。自从我们去年发表在ECCV的工作以来,关系预测的工作已经雨后春笋般发展起来。有些工作的效果已经超过了我们一年前的结果,但我个人很高兴看到社区不再局限于ImageNet提供的内容,而去思考更丰富的场景理解。

但为了做到这一点,我们必须用基准数据集来支持社区。我们已经看到了ImageNet对物体识别做出了特别大的贡献,但作为一个数据集,这是一个有局限的数据集。它只有一个信息位,就是场景中的主要对象。ImageNet之后,社区的同事提出了许多关于数据集的有趣想法。Harry(沈向洋)已经提到的微软的COCO框架可以识别场景中的更多对象,以及用一个简短的句子进行描述。但是,还有更多的内容需要解决,特别是物体间的关系,问答,及针对图像场景的问答。

自动生成场景图

三年前,我们开始收集有关的数据集,目的为了深入场景内容。我们真正关心的是关系,我们将视觉世界视为相互关联的场景图。

场景图是表示对象和关系的基本方式。

通过三年的努力,我们做出了一些通用的数据集。这个通用的视觉数据集包含10w多张图像和对其进行的420万个图像描述,180万对问答,140万标注好的对象,150万个关系和170万个属性。因此,这是一个非常丰富的数据集,其目的是推动我们超越名词,开展关系理解,纹理推理等研究。

我们已经展示了关系表示,还有什么其他事情可以做,或者视觉数据集是用来做什么的?

我要告诉你另一个称为“场景检索”的项目。

这实际上是计算机视觉中的一个老问题,很多人都研究过。这是一个相对已经成熟的产品,有点像谷歌图像搜索。

当我在Google输入“男人穿套装”或者“可爱的狗狗”这个词后,系统会返回给你漂亮的照片。你可以看看结果,非常有说服力。

但我用更复杂的句子,比如“男人穿西装,抱着可爱的狗”呢?效果就很难说了。

我们希望对我们得到的东西有更多的控制,更丰富的场景检索。然后,场景检索模型就没法实现了,因为它是基于对象的,它并不真正地理解关系。

这里有一个例子。我想获得一个男人坐在长凳上的场景,如果我只是基于对象搜索它,我会得到分离的对象或者错误的关系。也许我可以添加一些属性,但它会丢失对象和其他东西。但是当我添加关系和对象时,我可以立刻得到更加有意义和精确的场景。这就是场景检索的理念。

我们之前的一个研究是如何表示非常复杂的检索请求,就像这个描述:一个满头灰发的老女人戴着她的眼镜,穿着一个敞怀的的黄夹克,等等等。一旦我们有这样的场景图,它就变得更容易,成为了一个图匹配问题。此前我们有在专有设备上训练过它。完全可以想象,我们最近几年可以用深度学习技术将其发扬光大。需要特别注意的是,场景图是描述复杂场景中丰富内容的基础。

下面是有关卧室的另一个例子,以及如何使用场景图来检索它。这一切都是可行的,它用新的方式来表示复杂的意义和连接的场景。

但是,你们至少应该先问我个问题,她是怎么得到这些场景图的?这看起来不容易。

事实上,这在实际应用环境中是完全不可想象的。当我去百度搜索,或者Bing搜索,或者谷歌搜索询问一个图像时,你如何构造场景图呢?所以我们真正需要做的是自动生成场景图。

关于自动生成场景图的论文我们发表在 2017 CVPR 上。

我们使用了一个自动场景图生成模型来验证传递进行的查询消息,感兴趣可以查看我们的论文。相比于其他基准模型(baseline),此模型更接近于真实的场景图处理。

我们很兴奋地看到这个通用的视觉数据集向世界传达了场景图表示的概念,我们正在使用这个基准并且鼓励社区去审视有关关系条件,场景检索生成等问题。但这些只是越过ImageNet的一些早期问题,它仍然相对简单。他们只是有关场景的。当你睁开眼睛时,你首先看到的是物体、关系。但视觉智能或人工智能比我们要强,那么,超越早期对像素的感知外还有什么呢?

给大家展示一下 10 年前我在研究生时期做的一个实验,这个实验是关于人类认知的。我让参与测试的实验对象坐在电脑屏幕的前方,然后让他们看一张闪烁地非常快的图片,然后这张图片很快就会被壁纸遮挡起来,此处的遮挡是为了控制图片在屏幕上停留的时长,停留的时间其实非常短。一小时我给他们 10 美元,然后他们在看过图片之后,需要写出自己所能记得的关于这张图片的所有描述。

可以看到,这里的场景切换非常之快,其中最短的图片展示时间只有 27 毫秒,也就是 1/45 秒,而图片停留的最常时间也只有 500 毫秒,也就是 0.5 秒。让人惊奇的是,我们发现人类能够将图片场景描述的非常详细。只需要 500 毫秒,人类就能够识别出非常多的内容,比如任务、动作、穿着、情绪、事件、社会角色等等。就算只有 40 毫秒,人类也能够对(图片)环境有大致的理解。因此,在视觉系统和描述场景的能力或者语言的能力之间,有一种不寻常的联系。我们的实验室现在正在研究的已经不只是单纯的“感知器”,视觉和语言之间的联系、视觉和推理之间的联系非常非常深,现在的研究还只是开始。

从句子整合到段落

我们最早开始做人类和语言相关的工作可以追溯到 2015 年。

当时,世界上还很少有实验室用和我们一样的想法做图像描述:用 CNN 来表示像素空间,用 RNN 或者 LSTM 来表示序列模型、生成语言。

当时刚刚兴起了第一波算法浪潮,可以根据现有图片自动生成描述的句子。在这个特殊的例子中,穿着橘色马甲的建筑工人正在路上工作,穿着蓝色T恤的人正在弹吉他。这是一个让人印象深刻的例子,但是一个视觉场景并不是短短的一句话能够描述的,而是可以分成不同的组成部分,因此我们接下来就做了“dense captioning”:给定一个场景,我们不仅仅只看这张图片中的整体内容,而是看不同的部分,看感兴趣的区域,然后尝试用语言来描述。

这里有一个例子,这张图片的描述由很多不同的部分组成:一部分是关于人骑在大象上,一部分是关于人坐在长椅上,一部分是关于大象本身的描述,一部分是关于大象身后的森林。比起短短的一句话,这种描述方式,能够提供更多的图片信息。

图片描述

这是去年发布的,今年,就在几个月以前,我们又往前进了一步,开始生成段落。

当然,你可以说只要先生成句子,然后将句子串联起来就成了段落,但是通过这种方式生成的段落并不能令人满意。我们并不想随意地将句子组合起来,我们必须思考如何将句子组合起来,如何让句子之间的过度更加自然,这些就是这篇论文背后的想法。尽管我们已经可以生成段落,但是结果仍然不能令人满意,但是这种方式可以完整地描述场景内容。

自动分割视频关键部分

图片描述

就在几天前,我的学生在威尼斯举行的 ICCV 大会上展示了我们的工作。我们将原来静态图片上的工作延伸到了视频上,在这个领域,如何检索视频是一个问题。目前,大部分关于视频的工作,要么是通过一些关键目标来进行检索,或者对一个事件(如打篮球)进行整体描述。
图片描述
但是在绝大多数的长视频中,里面发生的事件不只一个。于是我们建立了一个包含 20000 段视频的数据集,并对每个视频进行注释,平均每个视频 3.6 个句子。然后我们提出了一种能够在整段视频中临时查看的算法,它能够自动分割视频中的关键部分,然后用句子描述出来。

对于其完整的模型结构,不过我不打算细讲。这个模型的开始的部分是对视频中的 C3D 特征进行特征编码,剩下的部分则是如何找到关键部分并生成描述。

我们跟其他的方法进行了对比,尽管我们是第一个这样做的,但是和其他的方法相比,我们的方法展现了非常不错的前景。

这种工作才刚刚起步,但是我非常兴奋,因为在计算机视觉领域,人们对视频的研究还不够,而这种将视频和自然语言处理连接起来的能力将会创造非常多的可能和应用领域。

从SHRDLU到CLEVR:模块世界+自然语言

图片描述
演讲的最后部分仍然是关于视觉理解和自然语言处理的,但是在这个特殊的实例里,我想将语言当作推理的媒介,不仅仅是生成描述,而是去推理视觉主题的组成性质。

让我们回到 40 年前,当时 Terry Winograd 创建了一个早期的 AI,叫作 SHRDLU。SHRDLU 是一个“Block World”。人类提出一个问题:“ the blue pyramid is nice. I like blocks which are not red, but I don’t like many thing which supports a pyramid. Do I like the grey box?”,在这个世界里,人类会问出非常复杂的问题,而算法 SHRDLU 需要生成答案:“ No.( Because it supports the pyramid. )”因此这个过程里面涉及到很多的推理。在那个时候,SHRDLU 还是一个局域规则的系统。如今,我们将这种想法用现代的方法重现,在simulation engine(模拟引擎)中使用现代的图片创造另一个数据集——“CLEVR”。

“CLEVR”是一个拥有无限多对象模块的数据集合,我们可能产生不同类型的问题。我们生成了各种各样的问题:一些问题可能是关于attribute(属性)的,比如“有没有哪些大型物体和金属球的数量相同?”;一些问题跟counting(计算)相关,比如“有多少红色的物体?”;一些问题和comparison(比较)相关;还有一些问题与special relationship(特殊关系)相关,等等。

“CLEVR”是一个非常丰富的数据集,由问答集组成,与场景中内容的含义有关。我们如何看待我们的模型呢?与人进行比较。我们发现仅仅使用venilla,CNN,LSTM作为训练模型,人类仍然比机器好得多。当机器的平均性能小于70%时,人类可以达到93%左右的精度。
图片描述
所以有一个巨大的差距。我认为我们差距的原因在于我们的模型不能明确推理。我们把相关的研究也发表在刚刚结束的2017ICCV大会上。

大致原理是,模型首先提取问题并通过自然语言训练生成器。然后我们利用这个模型进行推理,最后得出这些答案。总的来看,是训练一个生成器模型。然后,训练模型和其预测的答案。最后,联合查找及模型,可以对最后的QA给出合理的结果。我们的模型比执行基线(baseline)好很多。

由于李飞飞在演讲中提到了自然语言处理与视觉识别的结合,也提到了微软研究院沈向洋对于自然语言的描述等研究,因此,我们也将沈向阳的演讲内容整理如下,希望对你有所启发。


沈向洋:自然语言中的描述、对话和隐喻

图片描述
最近我一直讲的一句话就是“得语言者,得天下”,只有我们切身明白自然语言是怎么回事才能够真正把人工智能讲清楚。

在这里,我侧重三方面内容,主要讲讲如何一步步深入研究自然语言:

图片描述
第一步,表述方面:通俗来说,就是如何利用自然语言技术表述一个事件。如今关于表述的研究,已经发展得非常好了。

第二步 对话及智能:相对而言,这个比较难一点。对话即智能,这是目前来说非常强调的一点。

第三步 机器意境:相比以上两点,这点比较悬疑,就是说整个机器意识,到底应该如何理解?意境到底是怎么回事?延伸来说,为什么有些人讲的东西你觉得比较有深度?

刚刚提到的三点实际是可以理解为三个层次,正如小学、初中、高中所训练的作文写作一样。

第一层次:小学老师说,你要把一件事情清楚写出来,这就是记叙文。

第二层次:可以总结为正论文。也就是对话层面,简单来说就是要把一个问题讲清楚,论点、论据、论证缺一不可。其实我们大多数的科研论文都是处在这样一个level。

第三层次:当你的文章开始写得有点水平时,老师说可以写诗歌、写散文,写一些表达自己心境、情怀的文章,运用到我们研究的自然语言理解中,也就是机器意境这个层次。

下面,我会通过具体的案例来详细解析这三个层次的研究。

首先,讲一讲如何用机器学习来做自然语言表述。这里我用一个比较特别的例子——降低视觉和自然语言结合,同大家解释一下。

想表述清楚这个问题,就要提一下我们一直以来推出的微软认知服务(Microsoft Cognitive Services),其中有一个很特别的东西,名为Traction ball。就是说,上传一张照片后,它可以直观告诉你,这张照片中到底有什么以及如何描述这张照片。

此后,基于这个技术,我们做了一个应用软件——Saying AI,它可以为盲人服务。

图片描述

回到照片描述的这个问题上,也就是我刚才提到的Traction ball。这个特殊的技术,最基本的原理就是计算机视觉的API,称为Image Capture。

例如,配上一张照片,一个人游泳的照片,在这张照片中我们能够得到什么样的表述呢?能不能检测到说照片中的人数,人的动作、表情等很多信息?卖个关子,如果大家有兴趣的话,可以到微软的网页上浏览,会有很多技术涉及到这方面。当然我们除了Traction ball之外,还有很多其他的类似的视觉服务,这只是一个很好的具有代表性的例子。

值得一提的是,我们在做Traction的服务时,专门做了一个标准数据集,叫做Microsoft COCO。在COCO的研发中,我们也一直与其他的系统做过可行性的比较。实践表明,过去一年的时间内,我们做Traction是比较出色的,但从数据的角度出发,如今微软研究院做的系统大概是26.8%的准确率,人类目标希望达到63.8%,我们确实还有很长的一段路要走。

图片描述

如果深入了解的话,Traction的服务除了标准数据集之外,还会涉及图像描述。图像描述主要想解决什么问题?实际上可以定义为计算机视觉和计算机语言交汇的地方。首先要具备一个语意空间,随后就可以将整个图像的空间和特色投影到文字表述,通过字、句、段来呈现。

图片描述

例如,这是一个网球场,一个人拿着球牌,在机器表述中还有没有表现出来的要素,这些都是我们技术提升的方向。所以语意空间是连接图像和文字的有效工具,于是我们做了一个深度结构语意的模型DSCM,在这方面又有了巨大的空间提升。

谈一谈有关表述的产品发布出去后还会有什么问题呢?

所谓Diploma dreamer research,最重要的一点就是你发布出去之后,用户会在两方面进行辅助,提供更多的用户数据以及提供建议,帮助你意识到这个系统的问题在哪里。早期,更多是用户觉得系统或者是产品如何;现在更多是我们自己讲,我们觉得系统怎样,如果做一个correlation,就会对比清楚明了。

问题一:有一些做的真好,我们说好,用户也说好,这些通常是一些很自然的场景,叫做In natural photo,一些common objects,例如城市的一些雕塑等。

问题二:我们觉得做的不太好,但用户觉得做的好,有一些很自然的场景,就是加上这种类型的照片,一定程度上可是我们的confidence比较低,但用户觉得挺好。相反,有时候我们觉得还行,但是用户觉得不行。

问题三:我们也觉得不行,用户也觉得不行。例如一开始做raiseman分析的时候,一些照片从图像特征分析开始就有问题。

做完这个对比分析后,我们得出了什么重要结论呢?在做大数据的时候,在做这样AI的问题中,大家一定要明白,要分析数据,就是You know want you know、You know want you don’t know、You don’t know want you know and You don’t know want you don’t know,所以你要做这样一个分析。

如今,相关产品不断迭代,技术不断更新,模型架构不断趋于精准,那么基于这类技术,落地应用情况又如何?

例如,在我们的办公室软件中,用户数量非常大。例如Power point,今天如果你做PPT的话需要上传一张照片,我就可以告诉你,这张照片大致上可以说用怎样的Image Capture。如果觉得不是很perfect的话,可以建议其中用一些什么样的object,也可以考虑要不要这样去用。此外还有之前提及的SAYING AI,它是专门为是为有挑战的人士(盲人)准备的。

一直以来,我们不断思考人工智能最后的目的是什么?人工智能的目的是打败人类还是帮助人类?对于微软来说,我们觉得人工智能的目的是帮助有需要的人类。在此基础上,我来讲讲对话与智能。

图片描述
对话就是智能,智能在于对话,你问我,这样表述到底是什么意思?其实回答这个问题之前,应该了解两件事:机器阅读理解其实是从从回答问题到提出问题;问答对话生成是从一问一答到提出问题。

图片描述

目前深度学习确实在语言智能方面帮助很大,我们现在可以用很多深度学习的方法去完成对语言的深度理解,不仅能够回答问题,还能够提出问题。那么问题来了,怎么去提出问题?读一段书,你要从文本里面找到关键点,然后要围绕这些关键点的话,这就可以生成问题。

最近我在加拿大买了一家做的很不错的AI公司,叫做Mover。主要是在做reading、capture,他们最近发表了一篇论文就解释了如何找到问题并提出。

图片描述

当然不能光提问题,提问题的意义就是现在还知道答案,答案是three,这是我们现在很努力在做的事情。AI提了一个很有趣 的问题,就是说“How many breakers?或者record?

图片描述

不仅仅是回答问题以及询问问题,更重要的事情是要具备一个连续对话的系统。现在我们用微软聊天完成小冰的架构,主要就是要做一个对话深层模型,其中包括一个记忆机制。做之前要知道谈话的内容、观点以及主题,做这样一件事情之前,首先要有一个record,接下来要有一个attention,attention这样一个model。

图片描述

谈到现在的关注点,整个过程中,要对对话整体的情绪和情感做一个建模,对用户的画像,也就是用户要有足够的理解。在这上面,综合用户的上下文和AI的上下文,再加上整个用户当前的输入,你就可以预测接下来应该讲什么。但问题还远没有那么简单,当你有这样一个连续对话,长程对话的时候,应该想到必须要有一个引导机制,不然整个聊天会没有方向。

所以,应该有这样一个focus,要加上一个话题引导机制,同时还要有相关的兴趣话题在里面。所以满足这两个非常重要的方面,就是对话即智能。

相对来讲,我们提出的问题,并不是那种可以给出很多答案的问题。当我们在机器的描述到机器的对话,到底智能体现在哪里呢?仅仅是能够规划,那还不算是真正的智能,真正的智能最应该体现在这个对话中。

以图片举例,图片能够被诠释成Capture,但这些Capture到现在为止仅仅是一个客观描述;也许更加有突破性的事儿,就是一张照片出现之后,不仅仅具备客观描述,更重要的是对它有一个主观评价。甚至说,一张图表示一个意境,可以从这张图片出发做诗,意境到底体现在哪里?什么是天马行空的意境?为什么古人讲只可意会,不可言传,怎么体现出来的?
图片描述

由此展开对机器意境的一个详细的解释。我觉得我们可以建一个模型,可以讲的很清楚AI到底要解决什么样的问题。到现在为止,通过自然输入,语音也好、语言也好、手写也好、键盘也好,机器把这些自然输入做成机器的representation,在做这样一个深度学习,就出现了一些机器意境的结果。

今天绝大多数人工智能的科研都停留在这一步,机器的结果出现后就结束了,真正有意义的实际上是要继续下一步,也就是反向推理。要把机器的结果,通过反向推理,让人可以理解,让人能够感觉讲的到底是什么。

下面,我来讲讲我们是如何将以上三个层次的技术与理解应用到小冰上。比如说诗歌这件事情,每个人写,每个人读,意境不同,理解可能都很不一样,为什么?

图片描述

让我们看看小冰的图片评论,例如今天大家用小冰聊天机器人。如果描述的话,一只肿了的脚,这就很了不起,但评论说伤的这么重,疼不疼?这太神奇了,怎么能够知道呢?

图中有两只猫,这也很了不起,很多人都可以做到。但评论说,小眼神太犀利了,真了不起。

第三个,表述比萨斜塔,这能做出来也很了不起,谁知道这是不是比萨,评论说你要不要我帮你扶着?我们需要的就是这个结果。所以一定要在补充最后一步,才可以让人更好的理解机器。

最近微软做了一个非常激动人心的工作,小冰写诗。上线了大概几个月,在微信上,全国的网民(小冰的fans)一共发表了22万首诗,这是个什么概念呢?就是中华人民共和国到现在真正发表的诗歌可能还没有这个数字。

通常大家都觉得,自己的诗写的不够好,还没到到真正刊登的程度,只在自己的微信朋友圈发布就可以了。

图片描述

小冰是如何作诗的?

首先,通过tool把整个照片的意思搞清楚,这是街道、城市、红绿灯,很繁忙。第一步是先要生成单首诗、一句诗,做法是一个前向的RNN,再加上反向RNN的模型。我们现在正在写这篇论文,应该很快可以发表,到时候大家可以再批评。

一句诗出来后,再加一个基于递归神经网络的一个laid generation approach,例如从这张照片出发,我们可以产生一首诗,大意是城市在他身后缓缓的流动,我的生活忙碌,我们在没人知道的地方寂静,嘴边挂着虚假的笑容。你问我这个人到底讲什么?我说我也不知道这个人到底讲了什么。

我自己觉得,AI最了不起的,就是做人脑的延伸,对于人脑的理解,最重要是有两个方向,一个叫做IQ,一个叫做EQ。小冰写诗就是这个意思。

任何一个科技时代,我们都会去想改变我们的事。当年的PC时代,是操作系统和应用软件;后来的互联网时代,是浏览器加上搜索引擎;后来的移动时代,APP为王;现在AI时代就说到了对IQ、EQ的理解。

图片描述

我们非常高兴小冰这个产品已经登陆中国、日本、美国、印度、印尼五个国家,目前有上亿用户。我自己非常自豪这个产品从北京做起,走向世界,我觉得其中最重要的一方面就是在人工智能的发展过程中对自然语言的理解。

图片描述

最后,我还是要强调,接下来的研究方向就是自然语言,就像非常了不起的一首诗所言,“得语言得天下,不要人夸颜色好,只留清晰满乾坤”。

评论