Apache Spark 开源集群计算框架

  • 大数据技术和Spark概述
  • 通过实例学习DataFrame、SQL、Dataset等Spark的核心API
  • 了解Spark的低级API实现,包括RDD以及SQL和DataFrame的执行过程
  • 了解Spark如何在集群上运行
  • Spark集群和应用程序的调试、监控、和调优
  • 学习Spark强大的流处理引擎 - 结构化流处理
  • 学习MLlib并了解如何使用它解决分类、推荐、以及其他多种实际问题

第 I 部分 大数据与Spark概述

Spark - 第1章 Spark是什么?
Spark - 第2章 浅析Spark
Spark - 第3章 Spark工具集介绍

第 II 部分 结构化API - DataFrame、SQL和Dataset

Spark - 第4章 结构化API概述
Spark - 第5章 基本的结构化操作
Spark - 第6章 处理不同的数据类型
Spark - 第7章 聚合操作
Spark - 第8章 连接操作
Spark - 第9章 数据源
Spark - 第10章 Spark SQL
Spark - 第11章 Dataset

第 III 部分 低级API

Spark - 第12章 弹性分布式数据集
Spark - 第13章 高级RDD
Spark - 第14章 分布式共享变量

第 IV 部分 生产与应用

Spark - 第15章 Spark如何在集群上运行
Spark - 第16章 开发Spark应用程序
Spark - 第17章 部署Spark
Spark - 第18章 监控与调试
Spark - 第19章 性能调优

第 V 部分 流处理

Spark - 第20章 流处理基础
Spark - 第21章 结构化流处理基础
Spark - 第22章 事件时间和有状态处理
Spark - 第23章 生产中的结构化流处理

第 VI 部分 高级分析与机器学习

Spark - 第24章 高级分析和机器学习预览
Spark - 第25章 预处理和特征工程
Spark - 第26章 分类
Spark - 第27章 回归
Spark - 第28章 推荐系统
Spark - 第29章 无监督学习
Spark - 第30章 图分析
Spark - 第31章 深度学习

第 VII 部分 生态系统

Spark - 第32章 语言支持:Python(PySpark)和R(SparkR和Sparklyr)
Spark - 第33章 生态系统和社区

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐