MapReduce API(练习)

实验目的1、搭建MapReduce编程模型2、配置Eclipse和Maven3、Hadoop集群与启动顺序4、MapReduce的WorfCount应用5、学习编写一个MapReduce程序，运行并得出结果6、在Hadoop集群中提取运行结果实验进入启动模式一、MapReduce编程实例1、创建Maven项目，File->new->other，选择M...

深巷的猫~

975人浏览 · 2019-06-28 12:56:02

深巷的猫~ · 2019-06-28 12:56:02 发布

实验目的

1、搭建MapReduce编程模型
2、配置Eclipse和Maven
3、 Hadoop集群与启动顺序
4、 MapReduce的WorfCount应用
5、学习编写一个MapReduce程序，运行并得出结果
6、在Hadoop集群中提取运行结果

实验进入启动模式
在这里插入图片描述
一、 MapReduce编程实例
1、创建Maven项目，File->new->other，选择Maven Project

2、使用Maven Project默认路径配置，或重新设置项目保存路径

3、在Fliter输入框中输入web，选择“maven-rachetype-quickstart”

4、自定义包名和项目名称
在这里插入图片描述
二、配置Eclipse和Maven
1、配置pom.xml依赖文件

2、导入Hadoop配置文件

三、 Hadoop集群启动
1、在集群中所有主机上使用命令“zkServer.sh status”查看Zookeeper当前服务，未启
就使用“zkServer.sh start”启动Zookeeper服务
在这里插入图片描述
2、在主节点使用命令“start-all.sh”启动Hadoop集群

3、在备用节点启动ResourceManager；

四、 Hadoop-Web验证
1、使用“jps”查看Java进程信息，如在主节点和数据节点查看

2、打开浏览器查看整个集群的HDFS状态：http://192.168.10.111:50070
在这里插入图片描述
3、打开浏览器查看集群状态、日志信息等：http://192.168.10.111:8088

4、在从节点上查看NodeManager信息：http://192.168.10.113：8042

五、 MapReduce的WordCount应用
1、WordCount代码，文件中有大量单词，统计每个单词出现的频率
(1)map函数和reduce函数的方法
在这里插入图片描述
(2)定义输入输出路径和创建Configuration类

(3)创建job类和设置job的输入输出路径并提交集群

2、上传hello.txt文件至hadoop hdfs系统

3、WordCount运行结果

六、代码练习
1、Partitioner操作，如分别统计每种类型手机的销售情况，将每种类型手机的统计数据单独存在一个结果中
(1) Partitioner代码
在这里插入图片描述

(2)上传port_1.txt和port_2.txt文件至hadoop hdfs系统，并执行、查看运行结果

2、RecordReader操作
(1) RecordReader代码，如分别统计数据文件中奇数行和偶数行的和

(2)上传recordreader.txt文件至hadoop hdfs系统
在这里插入图片描述

(3)使用Maven命令将项目打包成.jar文件，在命令行模式进入项目根目录执行mvn命令:
Mvn clean package –DskipTests

（4）提交作业到集群并运行

(5)打开浏览器，查看集群日志信息：http://192.168.10.111:8088
在这里插入图片描述
(6)查看 RecordReader操作运行结果

3、MapReduce排序
(1) MapReduce排序代码

(2)上传sort.txt文件至hadoop hdfs系统

(3)在集群中直接运行提交到集群的.jar文件

(4) 打开浏览器，查看集群日志信息：http://192.168.10.111:8088
在这里插入图片描述
(5) 查看 MapReduce排序运行结果

3、MapReduce二次排序
(1) MapReduce二次排序代码

(2) 上传secondsort.txt文件至hadoop hdfs系统

(3) 查看 MapReduce二次排序运行结果