返回 登录
0

独家揭秘RISELab实验室

阅读6887

UC Berkeley大学的AMPLab曾是大数据领域世界顶尖的实验室之一,六年来推出了多项主要的科技创新技术,比如Apache Spark、Apache Mesos和Alluxio,而如今它即将关闭,取而代之的是RISELab实验室。RISELab实验室会专注于提供SRDS,即安全实时的决策堆栈。

Spark技术商Databricks的共同创始人与执行总裁,UC Berkeley的计算机科学与电气工程教授,同时也是Spark的核心作者——Ion Stoica就曾在2016年比利时布鲁塞尔的Spark欧洲峰会上讨论过新RISELab实验室的相关信息。

Stoica表示:RISELab代表着实时智能安全执行(RISE),其定位是在分布式计算中解决下一个阶段,根据Databricks博客的说法:“Storica曾表示,这个新阶段是为了通过两个项目——Drizzle和Opaque,改进Spark并实现创新,其致力于构建开源框架、工具、算法,以便能够以更高的安全性,根据实时数据,决定要构建哪些实时应用。”

RISELab的初期目标是为了增强Spark的安全性与实时能力,因此,根据Databricks的信息,Drizzle项目的目标是将Spark Streaming的延迟降低一个数量级,同时提高其容错性。Opaque项目是为了增强Spark的动态与静态数据的加密功能。

图片描述

在Berkeley大学的官网上,可以找到许多组成SRDS的研究项目,例如,Arx允许用户对诸如MongoDB、Apache Cassandra等HDFS、S3与NoSQL数据库中的加密数据进行查询。Ray、Clipper、Succinct是紧随Spark引擎之后的研究项目,而LatticeFlow、LatticeKVS和Bedrock就是文档中展示的其它三个项目。LatticeFlow为新的异步数据协调框架提供核心编程API,LatticeKVS在数据存储中负责键值存储,Bedrock则提供永不变更的“底层存储”。Ground是一个“数据关联系统”,目前正在研发中,它也是RISELab的早期项目之一。

之前的AMPLab曾在Apache Spark和Apache Mesos上获得了重大的成功,Databricks的联合创始人与CTO Matei Zaharia还在就读PhD的时候,就在Stoica的指导下也参与了这两个很有影响的项目。Alluxio是一个分布式的内存文件系统,最初是为了处理Spark的数据,不过在众多贡献者的改进下,目前已经是最热门的开源项目了。

UC Berkeley将会有30名幸运的大学生参与到RISELab中,具体课程信息可以查看另一份文档。至于这个新实验室会为我们带来什么影响——无论对开源软件社区,还是商业项目,就只有时间能够证明了。但根据现有的信息,RISELab将试图解决一些非常重大的问题,包括构建大型机器学习系统,通过从人类身边的传感器所收集的数据,推动一个全新的智能时代。

图片描述

RISELab所设想的SRDS将会交付:

  • 一款分析工具——较Spark延迟降低100倍,但吞吐量达到Spark的1000倍;
  • 机器学习算法会实时对输入不可见的噪声数据进行分析,得出可靠的结果;
  • 确保用户隐私与应用程序的安全性。

人们已经制造出了这类通过实时数据进行实时决策的系统,特别是在高频交易与广告招标领域。然而,构建这类高度专业化的一次性解决方案所需的资源成为了推广的瓶颈,根据Github上的解释:“RISELab的目标就是,通过开发通用型安全实时的决策堆栈(SRDS),大幅降低构建这类解决方案的屏障。SRDS可以让更多人有能力构建起复杂的决策与预测分析应用,逐渐变更我们与世界互动的方式,并将来自于个人和公司的那些持续增长的数据予以利用,释放其巨大的价值。

图片描述

发布可靠的推理模型似乎是RISELab的重点之一,特别是如今整个世界都在朝着自动化系统的方向发展,越来越多的无人驾驶汽车与人工智能聊天机器人纷纷出现。将决策引擎与相关行为的反馈关联起来,形成闭合循环是SRDS想要尝试解决的艰难问题之一,因为相关的推理引擎运转速度还不到10毫秒。“对实时数据进行实时决策会导致数据处理的阶段转变,就像当初从小数据过渡到大数据的过程一样——就如大数据那样,即便使用传统算法,效果也会出现戏剧化的提升。我们认为,启用在搜索空间中的快速搜索,再加上持续调整以适应环境,对实时数据进行实时处理的行为会获得有效的效果提升。”

如果这还不够,那么UC Berkeley官网上对RISELab的研究愿景的描述更加详细,具体如下:

RISE研究愿景

诸多开源的大数据处理系统,如Hadoop、Hive、Storm,还有最新的Spark和Kafka,这些软件的开发从根本上改变了商业与科学行业的日常实践。这些系统使得新商业模式的创建(比如Facebook、Twitter),原有行业的瓦解重建(比如Amazon、Uber、Airbnb),还有科学研究取得快速进展(比如基因组学、天文学与生物学)都成为了可能。如今,我们正在寻求一个大数据处理中能够定义下一个十年的转折点。

有这样三种趋势推动发展:

  • 我们的世界更趋于互联化,包括建筑物、电气用具、发动机、衣物等日常用品中都包含有传感器。通过互联化,这些传感器能够以空前的规模,实时对我们周边的世界进行探测。
  • 随着无人机、无人驾驶汽车与智能化建筑/基础设施的出现,目前我们已经不仅能探测整个世界,还能自动作出影响到物理世界的决策。
  • 例如:高频交易与计算广告学这些应用的成功,向我们揭示了通过实时数据进行实时决策的做法是卓有成效的。

这些趋势让我们对未来的模样有个大致的概念——通过感知周边的世界,收集分析信息并实时自动进行决策。根据实时数据进行决策的能力会从根本上改变我们与这个世界交互的方式,并加快科学探索的步伐。曾经不可能的应用,如今也成了现实,这类新的应用包括零时防御网络攻击、协调无人机舰队、实时对传染病进行诊断和追踪、对地震进行早期预警等等。
为了实现这一宏伟的承诺,我们需要开发新的开源软件工具、算法和硬件,加强下一代数据应用的能力,就像Hadoop、Spark在过去十年对大数据分析作出的贡献那样。

这就需要我们在以下三个领域取得重大进步:

  • 系统:构建可扩展的数据分析工具,在延迟降低和吞吐量提高方面达到现有平台(Spark等)的数量级优化。这些工具必须能够完成数据、模型和决策的大规模可靠循环。
  • 机器学习:开发在线学习算法,能够良好地分析噪声数据和不可见的输入源,并实时作出响应。
  • 安全性:确保用户隐私和应用的安全性,但不影响其功能或性能。许多实时应用会接触到敏感的数据,而且由于与人类处于同一个物理空间中,这意味着会存在隐私侵犯和潜在物理伤害的严重风险。

目前,存在有些许基于实时数据的实时决策方案,特别是在高频交易和广告竞标领域,不过这些解决方案过于高度专业化(一次性),而且需要耗费大量资源、花费数年来开发。RISELab的目标在于:通过开发出通用型安全实时的决策堆栈(SRDS),大幅降低构建这些解决方案的障碍,SRDS可以让更多人有能力构建起复杂的决策与预测分析应用,逐渐变更我们与世界互动的方式,并将来自于个人和公司的那些持续增长的数据予以利用,释放其巨大的价值。

参考文章:

RISELab Replaces AMPLab with Secure, Real-Time Focus
CS294 RISE Real-time, Intelligent, and Secure Execution

译者 孙薇 / 责编 魏伟

评论