MapReduce API(练习)
实验目的1、搭建MapReduce编程模型2、配置Eclipse和Maven3、Hadoop集群与启动顺序4、MapReduce的WorfCount应用5、学习编写一个MapReduce程序,运行并得出结果6、在Hadoop集群中提取运行结果实验进入启动模式一、MapReduce编程实例1、创建Maven项目,File->new->other,选择M...
2、 配置Eclipse和Maven
3、 Hadoop集群与启动顺序
4、 MapReduce的WorfCount应用
5、 学习编写一个MapReduce程序,运行并得出结果
6、 在Hadoop集群中提取运行结果
实验进入启动模式
一、 MapReduce编程实例
1、 创建Maven项目,File->new->other,选择Maven Project
2、使用Maven Project默认路径配置,或重新设置项目保存路径
3、在Fliter输入框中输入web,选择“maven-rachetype-quickstart”
4、自定义包名和项目名称
二、 配置Eclipse和Maven
1、 配置pom.xml依赖文件
2、 导入Hadoop配置文件
三、 Hadoop集群启动
1、 在集群中所有主机上使用命令“zkServer.sh status”查看Zookeeper当前服务,未启
就使用“zkServer.sh start”启动Zookeeper服务
2、 在主节点使用命令“start-all.sh”启动Hadoop集群
3、 在备用节点启动ResourceManager;
四、 Hadoop-Web验证
1、 使用“jps”查看Java进程信息,如在主节点和数据节点查看
2、打开浏览器查看整个集群的HDFS状态:http://192.168.10.111:50070
3、打开浏览器查看集群状态、日志信息等:http://192.168.10.111:8088
4、在从节点上查看NodeManager信息:http://192.168.10.113:8042
五、 MapReduce的WordCount应用
1、WordCount代码,文件中有大量单词,统计每个单词出现的频率
(1)map函数和reduce函数的方法
(2)定义输入输出路径和创建Configuration类
(3)创建job类和设置job的输入输出路径并提交集群
2、上传hello.txt文件至hadoop hdfs系统
3、WordCount运行结果
六、 代码练习
1、Partitioner操作,如分别统计每种类型手机的销售情况,将每种类型手机的统计数据单独存在一个结果中
(1) Partitioner代码
(2)上传port_1.txt和port_2.txt文件至hadoop hdfs系统,并执行、查看运行结果
2、RecordReader操作
(1) RecordReader代码,如分别统计数据文件中奇数行和偶数行的和
(2)上传recordreader.txt文件至hadoop hdfs系统
(3)使用Maven命令将项目打包成.jar文件,在命令行模式进入项目根目录执行mvn命令:
Mvn clean package –DskipTests
(4)提交作业到集群并运行
(5)打开浏览器,查看集群日志信息:http://192.168.10.111:8088
(6)查看 RecordReader操作运行结果
3、MapReduce排序
(1) MapReduce排序代码
(2)上传sort.txt文件至hadoop hdfs系统
(3)在集群中直接运行提交到集群的.jar文件
(4) 打开浏览器,查看集群日志信息:http://192.168.10.111:8088
(5) 查看 MapReduce排序运行结果
3、MapReduce二次排序
(1) MapReduce二次排序代码
(2) 上传secondsort.txt文件至hadoop hdfs系统
(3) 查看 MapReduce二次排序运行结果
更多推荐
所有评论(0)