返回 登录
0

3位Committer,12场国内外技术实践,2016中国Spark技术峰会议题详解

源于2014年,由CSDN主办的中国Spark技术峰会已成功举办两届,而到了2016年,峰会更得到了Spark护航者Databricks的支持,所有议题均由Databricks联合创始人兼首席架构师Reynold Xin及峰会主席陈超联合把关。会议将于5月15日北京拉开帷幕,而在这里,笔者就将带大家初窥由Databricks、Hortonworks、Intel、Elastic、腾讯、新浪、AdMaster等国内外知名企业带来的共计12个议题分享。

目前会议门票限时7折(截止至4月29日24点),详情访问官网

三位Apache Spark Committer演绎的火花

如前文所述,本届峰会得到了Databricks公司的鼎力支持,因此在议题审核之外,更有三位Committer参加,他们将带来Spark 2.0版本的最新特性解析,其中Ram更是Apache Spark PM。

Ram Sriharsha

图片描述

Ram Sriharsha来自Databricks,现担任Apache Spark PM,曾供职于Hortonworks。除此之外,Ram更是一个资深的Apache Spark PMC成员&Commiter。在本次峰会上,Ram将带来一个技术演讲。而在此之外,Ram还会出席CCTC 2016,为大家带来一个更通用的Apache Spark解析。

连城:Spark 实时计算

图片描述

Databricks 软件工程师,Apache Spark 和 Apache Parquet committer,《Erlang/OTP 并发编程实战》译者。2013 年下半年开始接触 Spark 开源社区,后于 2014 年初加入 Databricks 并成为 Spark SQL 的主要开发者之一。目前主要兴趣集中于程序语言与分布式系统。

议题简介:自三年前的 Spark 0.7 起,Spark Streaming 就已经是 Spark 的一部分。Databricks 的用户调查显示,约50%的用户认为 Spark Streaming 是 Spark 最重要的组件。Spark Streaming 是 Spark 统一批处理和流处理的第一次尝试,提供了状态管理、exactly-once 语义,以及动态负载均衡、快速容错等针对大型集群的功能。在 Spark 2.0 中,我们以 Dataset API 为基础,在一套类型安全的 API 上再次对流处理和批处理进行了整合,提供了结构化流处理能力。在单一应用内混用批处理和流处理时,用户不再需要区分 RDD 和 DStream 两套 API,同时还可以享受到类型安全、状态故障恢复、事件时间戳。详情敬请关注五月份 Spark 中国技术峰会。

范文臣:Dataset in Spark SQL

图片描述

Databricks 软件工程师,Apache Spark Committer, Spark SQL 开发团队的一员。2013年从浙江大学毕业后,一直在进行分布式系统相关的工作。2014年开始接触 Spark,并成为最活跃的代码贡献者之一。2015年正式加入 Databricks,目前在杭州以远程协作的模式参与 Spark,主要是 SQL 模块的开发。

议题简介: Dataset 是在 Spark 1.6 引入的新的实验性的API。它可以看成是 DataFrame 的扩展,在 DataFrame 的基础上,提供了一套强类型的编程接口。和 DataFame 类似,Dataset 也是运行在 Catalyst 优化器之上,数据也是按照 Tungsten 的编码方式存放在内存中。这意味着,Dataset 在提供编译期类型安全的同时,仍能够享受到 Spark SQL 带来的性能提升,可以算做是一种 New RDD。 本次演讲将从源头开始,阐述创建 Dataset 的动机,Dataset 实现的一些细节,Dataset 的使用场景的介绍,以及 Dataset 在 Spark 2.0 中的新变化,包括与 DataFrame 的合并,性能上的改进等。

Hortonworks、Intel、Elastic等外企的最佳实践

在2016中国Spark技术峰会上,来自Hortonworks、Intel、Elastic等知名大数据实践机构将带来4场最佳实践分享。

程浩:Spinach: Spark SQL之上的快速交互式查询引擎

图片描述

2012年加入Intel大数据技术团队,Apache Spark开源社区活跃开发者,同时也领导Intel Spark Core团队,优化Spark在IA(Intel Architecture)平台的执行性能,充分发挥硬件特性,并回馈给开源社区。

议题简介: Spark SQL 在业内已经得到了广泛使用,在过去和大量客户的合作交流中,我们发现大数据上的低延迟查询需求很强烈,尽管Spark SQL底层提供了非常优雅的Data Source API接口扩展以及快速的查询执行,然而对于很多应用场景仍然不满足其需求。Spinach项目提供了基于内存的、与Spark SQL的数据类型完全耦合的Data Source扩展实现,并提供用户自定义索引功能,她期待运行在Spark ThriftServer进程内,支持多租户,100%兼容Spark SQL的标准语法;实现上,她扩展了HiveContext,加入SQL DSL来辅助用户创建索引;除此之外,为充分使用内存、SSD以及HDD的硬件特性,她还提供进程内的层次化的数据、索引缓存机制,避免某些外部内存缓存方案的进程间通信所带来的额外开销。在一个简单的全表扫描案例中,Spinach比原生Spark SQL快 30-50倍,单条记录的过滤选取要快100倍以上。本次分享,我们将剖析Spinach的设计实现,以及未来的开发计划。

梁堰波:Build generalized linear models on massive dataset

图片描述

梁堰波,Hortonworks技术专家,曾明略数据技术合伙人,更早的时候还曾就职于France Telecom、美团、Yahoo!等企业。梁堰波是Spark活跃贡献者,主要聚焦Spark ML/MLlib和SparkR项目,精通统计和机器学习算法在类似Spark这样分布式系统上的实现。

议题简介: The generalized linear models (GLMs) extends the traditional linear model to be applicable to a wider range of statistical modeling problems by specifying a model family and link function. The class of GLMs has gained popularity as a statistical modeling tool due to the flexibility of GLMs in addressing a variety of statistical problems and to the availability of software to fit the models. However, leveraging the rich, validated statistical software such as R is a challenge due to the massive dataset sizes in Hadoop. In this talk, we will discuss how Spark MLlib solved the common GLMs problem on large scale dataset by Iteratively Reweighted Least Squares (IRLS) and Limited-memory BFGS (L-BFGS), their pros and cons given training datasets of different sizes, and implementation details in order to match R glm and glmnet’s model output, summary statistics and prediction. We will also demonstrate the APIs in MLlib and SparkR. This is a joint work with other Spark community members.

邵赛赛:Spark and YARN: Better Together

图片描述

邵赛赛,Hortonworks技术专家,曾供职于Intel,主攻Hadoop与Spark的性能优化相关工作。Apache Spark活跃贡献者&资深玩家,主要聚焦Spark core、Spark on Yarn及Spark Streaming等领域。同时,邵赛赛还是Apache Chukwa committer。

议题简介: Nowadays Spark is adopted more and more extensively, with its flexible design of framework, it can be run on public cloud, dedicated or multi-tenant cluster with different cluster manager: Standalone, Mesos and YARN. In this talk, we will focus on Spark running on YARN, to introduce how does Spark run on YARN and why Spark is better on YARN. Also we will cover best practice for Spark running on YARN, especially for in-production environment. Finally future works for this area will be discussed, like container resizing, better long-running supports, ATS integration.

曾勇:Elasticsearch 与大数据

图片描述

曾勇(Medcl),Elastic开发工程师与布道师,在分布式搜索、高性能、高可用架构、自动化运维等方面积累了超过七年的经验。Elastic开源社区负责人。曾勇是Elasticsearch国内首批用户,自2010年起就开始接触Elasticsearch并投入到生产环境中使用,并编写过一系列的中文处理相关的插件,Elasticsearch中文社区发起人,筹办了一系列线上线下的Elasticsearch技术分享与交流,出于对Elasticsearch的喜爱,目前已全职加入Elasticsearch项目背后的Elastic公司,负责Elastic开源技术在中国地区的推广,协助开拓中国市场,合作伙伴等。在这之前创业三年,担任公司的技术总监与运维总监,带领团队开发某医疗行业的社交与职业交流平台并负责后端服务的架构、开发、运维等工作。

议题简介: Elasticsearch 因为其实时性、可扩展性和易用性正变得非常流行,而 Spark 强大的数据分析和处理能力大家也是有目共睹,是不是能够将两者的优点结合起来,让大数据发挥出更大价值,让Spark搜索更快,处理数据更快更实时,本次分享 Medcl 将为大家介绍Elastic的另一开源产品 Elasticsearch for Apache Hadoop (ES-Hadoop) , 除了介绍里面各种有趣的特性和原理细节,再介绍如何结合ElasticStack的可视化套件来对大数据做快速的实时分析和展现。

腾讯、新浪微博、Admaster、MediaV等带来的国内最新用例

卢亿雷:Spark在大数据的应用实践

图片描述

大数据资深专家,CCF(中国计算学会)大数据专委委员,北京航空航天大学特聘教授。主要负责数据的采集、清洗、存储、挖掘等整个数据流过程,关注Hadoop/HBase/Storm/Spark/ElasticSearch。有超过10年云计算、云存储、大数据经验。曾在联想、百度、Carbonite工作,并拥有多篇大数据相关的专利和论文。

议题简介: 主要分享Spark和MapReduce运行在Yarn上不同场景的应用与坑,Spark与ElasticSearch的结合,Spark在实时监控和跨屏打通应用场景分析,最后会介绍由Storm迁移到Spark Streaming的案例等等。

林立伟:Spark Streaming 在腾讯广点通的应用

图片描述

《Spark Streaming 源码解析系列》(Github 500+ star)作者。自 2010 年开始从事流数据处理研究工作,熟悉实时流数据处理领域的问题解决方法,对流数据平台的具体维度如数据处理模型、故障恢复、状态管理、任务调度形式、数据动态分区与调整、时序性保证等有一定研究。熟悉 Apache S4, Apache Storm, Spark Streaming 核心代码,并有丰富实战经验,包括 2012 年先基于 Apache S4、后替换内核为 Apache Storm 构建了城市交通实施管理系统并在省会城市上线部署、稳定运行。现在腾讯广点通从事实时大数据处理研发工作,正在逐步完成统计、计费、策略控制等多项业务由 Storm 框架、MapReduce 框架向 Spark Streaming 框架迁移。

议题简介: Spark Streaming 提供了与其它 stream processing 系统,如 Apache Storm, Hadoop MapReduce 不完全相同的实时处理语义,API 与功能集合。在认识到 Spark Streaming 相对于 Apache Storm 和 Hadoop MapReduce 的优势后,我们腾讯广点通已在进行、并已完成了很多业务从 Apache Storm, Hadoop MapReduce 的迁移。

在这次 talk 中,我们与腾讯广点通的实际业务结合,侧重介绍 Spark Streaming 什么样的特性适合解决什么样的问题:

  • Spark Streaming 的 exactly-once + 推测执行语义:实现反作弊的可重入,计费的可重入等
  • Spark Streaming 的 micro-batch 模型:替代全量模型,实现精确、实时的增量计算模型,用于快速、准确的数据统计
  • Spark Streaming 的 State 管理:利用其做缓存、去做去重,实现精准 uv 统计等
  • Spark Streaming 的 job 生成与调度:利用其做原跨 MapReduce 实例的协作与锁状态管理,实现复杂 pipeline 的唯一重试

黄波:Spark在新浪微博Feed排序的应用

图片描述

2010年加入新浪微博,微博研发中心feed技术专家,负责微博Feed流排序和推荐相关项目。目前专注于基于Spark、Storm等计算平台的大数据处理,致力于将分布式计算与机器学习技术应用于微博Feed排序和推荐等场景。

议题简介: 介绍新浪微博的微博整体的平台架构和大数据架构,然后介绍Feed产品和Feed流程,以及Spark在Feed场景下的应用。主体内容中,主要以Feed排序为例,深度介绍Spark和Feed排序结合。

  • 首先介绍新浪微博Feed排序面临的问题,以及新浪微博Feed排序的技术架构。
  • 然后介绍模型训练和Spark MLlib的结合,主要介绍LR和GBDT相关应用。
  • 之后介绍实时特征抽取和Spark Streaming的结合,以及Spark Streaming和Storm的一些优劣对比。
  • 最后介绍Spark SQL、Spark Graphx在特征生成的应用。

王栋:利用ELK来进行Hadoop集群负载性能监控

图片描述

王栋,分布式计算专家,2008年毕业于西安交通大学软件学院,主要从事分布式和大数据平台的架构与开发工作,对大数据平台上的组件管理和性能监控有丰富的开发经验。

议题简介: 在Hadoop大数据集群的管理中,Ambari的引入大大简化了集群管理的复杂度,减轻了运维人员的工作量。但是在Hadoop集群管理中,Ambari所能提供的集群监控和管理功能主要针对集群中各个组建和服务的运行健康状况。而对于集群中负载运行的性能和健康情况,还缺乏高效,简洁,直观的监控方法。

本案例主要针对Hadoop集群中的负载运行性能和健康状况监控,将ELK(ElasticSearch,Logstash和Kibana的缩写)集成到Hadoop集群管理工具Ambari中,利用ELK强大的数据收集,整理, 存储,查询和数据可视化能力,开发出丰富的报表工具来对Hadoop集群运行中的MapReduce,Spark,Storm,HBase等负载进行监控,快速的将集群负载运行过程中的各种潜在问题以可视化的方式呈现给集群系统的管理人员或者应用的管理人员。帮助运维人员快速发现问题,方便定位问题,以便于采取及时有效的干预措施来保证整个Hadoop集群处于健康状态。集成过程中利用了Ambari的服务,组建管理功能来管控ELK的生命周期,还将ELK中的源数据与Ambari的Alert功能进行集成提供告警服务。

刘忆智:超越MLLib,通过XGBoost/MXNet看Spark上的前沿(深度)机器学习

图片描述

毕业于浙江大学,2012年加入上海聚效广告,2016年初被奇虎360全资并购后,任技术经理,负责广告受众定向算法团队,从事用户画像、推荐系统、搜索意图等算法研究实现和相关架构设计;DMLC成员,深度学习框架MXNet committer,负责MXNet on JVM stack的开发,致力于推动大规模深度学习技术在工业界的应用。

议题简介: Spark已经成为大规模数据处理的事实标准。 然而,由于底层计算模型的限制,一些高级的机器学习算法并不容易直接在Spark MLLib上高效实现。这就限制了包括深度神经网络在内的算法在工业界应用。与此同时,各种新的大规模分布式机器学习框架提供了包括外存计算,显卡加速等有效解决方案,让包括深度学习在内的高级机器学习算法成为可能。

在本次演讲中,我将介绍DMLC两大机器学习框架XGBoost和MXNet同Spark的整合工作,帮助用户构建从原始数据到高效模型训练的完整流水线。DMLC底层提供了非常灵活的并行化策略和GPU支持,我们将其和Spark本身的数据处理流程相结合,大大提升了Boosting Trees的训练规模和速度,并且将大规模分布式深度学习带到了Spark。

DMLC社区旨在开发性能卓越,便携可移植的机器学习框架。XGBoost和MXNet的JVM stack接口设计充分考虑了扩展性,使其能和包括Spark在内的多种数据处理框架相结合。这为企业应用到自己的业务和技术栈提供了便利。

2016年5月13日-15日,由CSDN重磅打造的2016中国云计算技术大会(CCTC 2016)将于5月13日-15日在北京举办,今年大会特设“中国Spark技术峰会”、“Container技术峰会”、“OpenStack技术峰会”、“大数据核心技术与应用实战峰会”四大技术主题峰会,以及“云计算核心技术架构”、“云计算平台构建与实践”等专场技术论坛。大会讲师阵容囊括Intel、微软、IBM、AWS、Hortonworks、Databricks、Elastic、百度、阿里、腾讯、华为、乐视、京东、小米、微博、迅雷、国家电网、中国移动、长安汽车、广发证券、民生银行、国家超级计算广州中心等60+顶级技术讲师,CCTC必将是中国云计算技术开发者的顶级盛会。目前会议门票限时7折(截止至4月29日24点),详情访问CCTC 2016官网

评论