返回 登录
0

MapperReduce 浅谈

目录
课程大纲(MAPREDUCE详解) 3
我的笔记Mapper 3
Reduce 4
Driver 5
Maptask reducetask 原理解析图 8
1. MAPREDUCE原理篇(1) 9
1.1 为什么要MAPREDUCE 9
1.2 MAPREDUCE框架结构及核心运行机制 10
1.2.1 结构 10
1.2.2 MR程序运行流程 10
1.3 MapTask并行度决定机制 12
1.3.1 mapTask并行度的决定机制 12
1.3.2 FileInputFormat切片机制 13
1.4 map并行度的经验之谈 14
1.5 ReduceTask并行度的决定 14
1.6 MAPREDUCE程序运行演示 14
2. MAPREDUCE实践篇(1) 15
2.1 MAPREDUCE 示例编写及编程规范 15
2.1.1 编程规范 15
1.7.2 wordcount示例编写 15
2.2 MAPREDUCE程序运行模式 17
2.2.1 本地运行模式 17
2.2.2 集群运行模式 17
3. MAPREDUCE中的Combiner 18
3. MAPREDUCE原理篇(2) 20
3.1 mapreduce的shuffle机制 20
3.1.1 概述: 20
3.1.2 主要流程: 20
3.1.3 详细流程 20
3.1.4 详细流程示意图 21
3.2. MAPREDUCE中的序列化 22
3.2.1 概述 22
3.2.2 Jdk序列化和MR序列化之间的比较 22
3.2.3 自定义对象实现MR中的序列化接口 23
3.3. MapReduce与YARN 24
3.3.1 YARN概述 24
3.3.2 YARN的重要概念 24
3.3.3 Yarn中运行运算程序的示例 25
4. MAPREDUCE实践篇(2) 26
4.1. Mapreduce中的排序初步 26
4.1.1 需求 26
4.1.2 分析 26
4.1.3 实现 26
4.2. Mapreduce中的分区Partitioner 30
4.2.1 需求 30
4.2.2 分析 30
4.2.3 实现 30
4.3. mapreduce数据压缩 31
4.3.1 概述 31
4.3.2 MR支持的压缩编码 31
4.3.3 Reducer输出压缩 32
4.3.4 Mapper输出压缩 32
4.3.5 压缩文件的读取 32
4.4. 更多MapReduce编程案例 34
4.4.1 reduce端join算法实现 34
4.4.2 map端join算法实现 35
4.4.3 web日志预处理 38

课程大纲(MAPREDUCE详解)
MapReduce快速入门 如何理解map、reduce计算模型
Mapreudce程序运行演示
Mapreduce编程规范及示例编写
Mapreduce程序运行模式及debug方法
MapReduce高级特性 Mapreduce程序的核心机制
MapReduce的序列化框架
MapReduce的排序实现
MapReduce的分区机制及自定义
Mapreduce的数据压缩
Mapreduce与yarn的结合
Mapreduce编程案例
Mapreduce 参数优化

目标:
掌握mapreduce分布式运算框架的编程思想
掌握mapreduce常用算法的编程套路
掌握mapreduce分布式运算框架的运行机制,具备一定自定义开发的能力
笔记:运行自己的jar包:注意的地方,path 参数不能写

笔记Mapper

package com.penggan.wordcount;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
//keyin 默认是mr框架的起始偏移量Long
//valuein 默认是mr框架读到的一行文本的内容 String
//keyout: 是用户自定义逻辑处理完成后输出数据中的key,在次处是单词String
//valueout :输出的单词的次数 integer
//Text 即代表的是String 记住引入的jar包是hadoop

public class WordCount extends Mapper

评论