返回 登录
5

再见,Hadoop时代,深度学习迎来寒武纪大爆发

阅读6184

原文链接:Key Takeaways from Strata + Hadoop World 2017 San Jose, Day 1
作者: Anmol Rajpurohit 翻译:新智元
欢迎人工智能领域技术投稿、约稿、给文章纠错,请发送邮件至heyc@csdn.net

作为每年定期在全球多个城市举办,聚集来自全球领先大数据企业及用户的顶级技术峰会,Strata + Hadoop World 今年的大会于3月14日在美国硅谷召开。而O’Reilly 宣布会议从此以后改名为 Strata Data Conference,也宣告了 Hadoop 时代的终结。本文整理了这次峰会 Keynote 的精华内容。重点在于使用高效的方式从存储和处理大数据转为新的机器学习技术,以从现有的数据中获取更高的价值。不过,即使聚光灯已经从大数据转移到机器学习(以及诸如深度学习等更先进的技术领域),从实现的角度来看,分布式和可扩展的处理仍然占据主导地位,因为大多数流行的机器学习模型对输入数据和计算力都有着无尽的需求。

再见,Hadoop时代

值得一提的是,从2007年开源以后,Hadoop 及其相关技术就成为了数据科学的深层驱动力。但是,我们都知道, 虽然 Hadoop/MapReduce 留下了自己的印记,但它已经不再是前沿技术了。 实际上,我们知道 Apache Spark 已经抢了Hadoop 的风头,说 Spark 是去年的热门新闻也不为过。

终于,在今年的Strata+Hadoop 大会上,O’Reilly 宣布从此以后会议改名为 Strata Data Conference。所以,Hadoop 的时代,再见了。

演讲撷英

Cloudera CSO 及董事长 Mike Olson 谈到“机器学习的复兴”,说 ML 和 AI 的大部分基本技术是在20世纪60年代和70年代发明的。当时,这些技术引起了很多有关这个领域具有何等潜力的炒作。然而,所有这些炒作都崩溃了,因为当时没有足够的数据提供给这些数据饥饿型的模型,而且处理数据所需的计算力也非常昂贵。随着ML的关键要素(大数据和成本更低的计算力)变得越来越易得(感谢大数据革命),我们正在目睹 ML 的复兴。虽然 Map-Reduce 仍然是有价值的,但现在更受关注的是由 Apache Spark 支持的横向扩展的机器学习应用。他介绍了 Cloudera 的数据科学工具 Workbench,这是一个面向企业的自助型数据科学工具,可以作为数据科学研究(主要用 R,Python 等编程)与操作化(主要用C ++或Java编程,用于高性能执行)之间的桥梁。Coursera 联合创始人 Daphne Koller 发表“在规模化教育中应用数据与机器学习”的主旨演讲。自2012年成立以来,Coursera 作为一个mooc平台,已经拥有 2500 万学习者(其中75%所在区域在美国之外)和超过2000门课程(180个专业),如此快速的增长使得用户更难找到适合自己需求的课程。因此,Coursera 应用数据科学和机器学习来解决内容发现方面的问题,并提供相关的课程推荐。这是通过二级分类器实现的。在最高级别,使用 t-SNE 嵌入到课程协同注册矩阵,所有课程被分为100个聚类。第二个分类器用于鉴定聚类中可以向用户推荐的某个特定课程。Koller 提到,在使用数据科学来促成教育领域的进步和提高效率方面,仍然非常缺乏。

图片描述

MapR Technologies 首席应用架构师 Ted Dunning 谈到“互联网的颠覆:将大数据推向边缘”。截至今天,互联网基础设施是建立在少量的服务大量消费者的大型服务器之上的。总投资由消费者基数主导,但是,成本由另一端的服务器驱动,也就是说,位元密度(bit density)和美元密度(dollar density)一样高。

图片描述

在物联网模式中,基础设施的设计得到改善。有无数机器负责收集和处理数据,然后将量度(metrics)传递给服务器。在这样的模式中,成本由大量的机器(单节点或小聚类)驱动,而收入则由服务器或其他平台设备驱动,由于位元密度较低,这些设备可以执行更多任务。

图片描述

Ted 介绍了 MapR Edge,这是一个专为物联网设计的平台,用于收集、处理和分析靠近源的 loT 数据,同时通过中央服务器共享关键的量度(metrics)。Niantic CTO Phil Keslin 在采访中分享了推出 Pokemon GO 的经验。Phil 提到,Keyhole 的经验帮助他们更好地了解地球,这在实际地理空间类的游戏中具有关键作用。Keyhole 团队主要使用20世纪90年代的卫星数据,这些数据在当年算是非常庞大,压缩后也有7TB。 Pokemon GO 的这个分布式基础架构是4名核心服务器工程师构建的。这支团队从强大的架构开始,用 Ingress 进行了一些实验,并做好了扩大规模的准备。Phil 说,与其说是一个“大数据”挑战,Pokemon GO 更像是一个“大计算”挑战。Pinterest 首席科学家 Jure Leskovec(同时也是斯坦福大学教授)解释了“实时向100M +用户推荐1B +条目”的机制:利用用户 - 对象图表(user-to-object graph)的结构规模化地提取排名信号。在 Pinterest 上部署的现代推荐系统(名为 Pixie)分为两个阶段:①候选人生成;②排名。候选人生成采用用户查询和侯选库(1B+条目,如pins,boards 等)作为输入,并列为 1K 的候选人名单。然后,基于机器学习的排名模块处理这 1K 候选人以生成一个有排序的推荐列表。该排名模块通过 RandomWalks 实现个性化的 PageRank,类似谷歌搜索的 PageRank。

图片描述

为了实现“实时”的速度,Pinterest 图表需要完全加载到内存中,但由于具有 +100B 的边线(edges),这几乎是不可能的。因此,使用修剪策略(pruning strategies)以压缩图表是自然的选择。这是的图表可以适应约 100GB 的 RAM。这种架构可以为各种应用用例提供灵活的个性化功能。

深度学习的寒武纪大爆发

有一位讲者用“寒武纪大爆发”这个词形容我们目前经历的深度学习和AI的直线增长。这个词最早是由 DARPA 负责机器人挑战项目的 Gill Pratt 提出来的。

如果你还记得一点地球史,就知道单细胞生物曾霸占地球数十亿年,直到5亿年前的寒武纪初,多样化生物忽然如同爆炸一样出现。学术上的解释是,非常小的变化,比如视觉器官的进化,改变了生物的活动区域,新能力的运用推动了其他能力的发展。最终,人类诞生了。

所以当数据科学家小心翼翼地谈论起AI奇迹时,也按耐不住谈起深度学习带来的新能力时的兴奋之情。这听上去有点儿矛盾,但不妨这么想:深度学习就是给我们带来新的能力的一组工具,其中最受欢迎的包括CNN、RNN、GAN以及RL。所有这些都是深度学习的分支,可以经由诸如 TensorFlow、MXNet、Theano、Torch等等这样的深度学习平台来使用。深度学习平台的出现可能就是触发AI爆发的小小变革。


图片描述

图片描述

评论