Hadoop开发常用的API汇总

HADOOP HDFS HBASE MAPREDUCE JAVA APIHDFS JAVA API

Allocator

6049人浏览 · 2017-02-15 16:30:38

Allocator · 2017-02-15 16:30:38 发布

HDFS JAVA API(version 2.7.3)

HDFS 分布式文件系统JAVA API。与local的java 文件系统的API类似。

Name	Description
org.apache.hadoop.conf.configuration	hadoop中java API使用最多的一个类，很多其他类会使用到配置文件,该类的实例代表内存中的配置文件.提供操作配置文件的方法。存储在配置文件中写入的键值对。一般使用构造函数构造实例即可，Configuration conf = new Configuration() 其他操作参数的API使用不多。
org.apache.hadoop.fs.FileSystem	文件系统中的抽象基类,HDFS对其实现为DistributedFileSystem代表整个文件系统。抽象类中提供两个方法open用于创建一个输入流FSDataInputStream,同样是一个抽象基类，其HDFS的实现为DFSInputStream。create用于创建一个输出流FSDataOutputStream。在HDFS中对于输出流的实现是DFSOutputStream。凡是需要使用到HDFS的读写都要使用这个抽象基类的实现。这个抽象基类还可以作为本地文件系统实现。作为本地文件系统实现的类是LocalFileSystem。重要方法copyFromLocalFile从本地拷贝文件到系统中。create创建新的文件，并且返回一个输出流。delete删除文件，可以递归删除文件夹中的内容。exists检测path中的内容是否存在。get方法，比较重要的方法，本身FileSystem是抽象的类，不可以实例化，get方法是FileSystem中存在的一个抽象的方法，返回FileSystem的实例，之后就可以用这个实例完成分布式文件系统的所有操作。这个方法一般是作为第一个调用的方法。get(Uri(可选),Configuration(org.apache.hadoop.conf.Configuration),user(可选))Uri这个变量用于指定实际访问的机器。分布式场景中使用FileSystem需要指定操作的文件系统。如果不指定会在本机的文件系统中去操作文件，所以Uri在此处是比较重要的变量。getStatus 返回一个FsStatus实例表征文件系统的空间以及使用量。参数Path代表分区，为空或者不写则是表示根分区的使用量以及容量。容易与FileStatus搞混。一般调用方法getCapacity() and getUsed().listStatus返回一个FileStatus的Array。表征文件夹下的所有内容(文件或者子文件夹)的状态。操作对象为文件夹,非文件夹返回本身代表的FileStatus.该函数可以接收的参数类型比较多。Path与Path[] 区别在于path获取的是path内部的内容转换为FileStatus。而Path[]将这个list内容转换为FileStatus[]。两种调用都可以添加Filter进行过滤。isDirectory isFile后面接Path用于判断给定Path是文件还是文件夹。mkdirs(path)创建目录。rename(pathsrc,pathdst)改变path可以理解为在文件系统中移动文件
org.apache.hadoop.fs.FSDataInputStream	文件输入流的抽象基类
org.apache.hadoop.fs.FSDataOutputStream	文件输出流的抽象基类
org.apache.hadoop.fs.Path	表征文件系统中的文件或者文件夹路径的实例，纯粹路径没有其他功能，基本上FileSystem的方法中都有传递这个参数
org.apache.hadoop.fs.FileStatus	提供文件系统中的详细信息。反应文件组路径，大小拥有者等文件相关信息，但是不提供返回读写流的方法。所以需要借助于FileSystem类提供的方法完成文件的读写操作。
org.apache.hadoop.fs.FsStatus	文件代表文件系统的空间以及使用量,有getCapacity和getUsed方法调用
java.net.URI	URI类在hadoop文件系统中用于指定文件系统的模式，在创建FileSystem实例的时候需要用URI指定这个文件系统实例实际对应集群中的某一台机器。URI.create(Schema)

综上所述。HDF HAVA操作的API主要是围绕FileSystem抽象基类展开。get用于创建实例。需要用URI指定系统的schema以及Configuration配置实例。文件创建使用create返回一个FSDataOutputStream 文件打开使用Open返回FSDataInputStream。返回的都是抽象类在具体系统的实现。FileStatus用是文件的状态抽象。

HBASE JAVA API(version 1.2.4)

HBASE JAVA API

Name	Description
org.apache.hadoop.hbase.HBaseConfiguration	HBase使用的Configuration对象，同样表示HBase的配置文件。创建方式略微不同使用静态的create()方法创建。因为HBaseConfiguration继承自Configuration所以返回类型可以是Configuration
org.apache.hadoop.hbase.HTableDescriptor	HBase中table的抽象描述,定义了整个HBase表的结构。主要用于在创建表的时候决定表的schema.addFamily(HColumnDescriptor)添加列族,removeFamily(HColumnDescriptor)移除列族.方法中传递参数为byte[]型.setName/getName设置与返回表名字,getFamilies()获取列族名字构成的一个set.返回类型为Set byte[].创建的时候使用new 调用构造函数创建，不过方法被舍弃了
org.apache.hadoop.hbase.client.HBaseAdmin	用于管理HBase中表的信息,包括表的创建createTable(HTableDescriptor),表的是能disableTable/enableTable(tablename)以及表的删除deleteTable(String tablename)或者是表的扩展，为表项添加新的列族等
org.apache.hadoop.hbase.client.HTable	客户端内存中用于与HBase表进行通信，CRUD操作是在HTable上进行的本身具有缓冲区，不适合于在多线程的应用场景中，多线程应用场景可能导致缓冲区溢出，所以多线程情况下使用HBasePool，即是HBase的链接池。常用方法:close()刷新缓冲区，将缓冲区内容刷入HBase数据库中.HTable中没有提供update这样的方法，本来HBase数据库单元中存储数据就有多个版本，没有比较使用update函数，本身任何单元数据的改变都会被记录，而且针对于NoSql，update的意义本来就不大。delete(Delete item)删除内容，get(Get get)查询单元格内容，put(Put put)插入内容。exists(Get get)内容是否存在。getScanner(**)更广的一个查询方式，返回的是ResultScanner。get这样的API需要指定查询的行号，所以查询范围更加的限定。getTableDescriptor()返回HTableDescriptor。创建时用new 构造函数创建，不过还是被舍弃了
org.apache.hadoop.hbase.HColumnDescriptor	列族的描述,类比于HTableDescriptor.构建关于列的描述,常用方法是getName获取列族名称，setValue以及getValue
org.apache.hadoop.hbase.client.Put	执行单元格数据的添加操作，主要是指定列族与列限定符号，将数据封装如Put里面进行数据库插入，主要是使用Put中的add方法添加限定的查询信息
org.apache.hadoop.hbase.client.Get	与Put类似，Get用于获取Hbase数据库中的单行的信息.主要方法是addColumn()添加列族以及列限定符号的信息，用于查询
org.apache.hadoop.hbase.client.Result	返回Get或者Scan操作后的结果，存储为键值对
org.apache.hadoop.hbase.client.Scan	用于限定要查找的数据，比Get使用更加灵活，可以限定查询行号的范围，而Get不具备这种功能
org.apache.hadoop.hbase.client.ResultScanner	本质上为一个迭代器，调用next返回下一个Result对象，表示的是一系列的查询结果
org.apache.hadoop.client.Connection	链接对象，使用ConnectionFactory.createConnection()创建，用于构建操作数据库的HBaseAdmin
org.apache.hadoop.client.ConnectionFactory	构建Connection对象，表征与数据库的链接，后续用于创建操作数据库的HBaseAdmin
org.apache.hadoop.habse.client.Cell	HBase返回的Result中的数据单元，通过rawCells返回数据单元格的一个list
org.apache.hadoop.hbase.client.CellUtil	数据库单元操作工具,主要用于拷贝单元数据

综上所述。Hbase的API调用比HDFS的多。基本的类型是HBaseConfiguration用于构建配置文件的实例，与表的Schema相关的为HTableDescriptor以及HColumnDescriptor还有HBaseAdmin。构建Connection是每一步必须有的操作。

Connection con = ConnectionFactory.createConnection(configuration);
HBaseAdmin admin = (HBaseAdmin)con.getAdmin();
HTable table = (HTable)con.getTable(TableName.valueOf(name));

后续的数据库的增删改查操作可以在获得的table对象上进行。

MAPREDUCE JAVA API(version 2.7.3)

MR 的JAVA API

Name	Description
org.apache.hadoop.mapreduce.Mapper	Mapper类，编写hadoop mr程序的Map过程时候需要继承这一个类实现其中的map方法。
org.apache.hadoop.mapreduce.Reducer	Reducer类，编写Hadoop mr程序的Reduce过程时候需继承的一个类，需要实现其中的reduce方法
org.apache.hadoop.mapreduce.Mapper.Context	用于将Map产生的结果当中间值输出,一般是输出key/value值
org.apache.hadoop.mapreduce.Reducer.Context	同Mapper.Context。将Reducer处理的结果进行输出
org.apache.hadoop.io.Text	可以理解为Hadoop中专门处理字符串的类型
org.apache.hadoop.io.IntWritable	可以理解为hadoop中专门处理整数的类型
org.apache.hadoop.mapreduce.Job	这个类也是Hadoop mr中非常重要的类型。用于定义任务以及提交任务到Hadoop mr集群处理。setJarClass()设置main函数所在的类，程序入口。setInputFormatClass()设置输入类型的类，setOutputFormatClass()设置输出类型的类。setMapOutputKeyClass()设置Map处理输出的键类型，setMapOutputValueClass()设置Map处理输出的值类型，setOutputKeyClass()设置reduce输出的key类型，setOutputValueClass()设置reduce输出的value类型。waitForCompletion()提交任务运行。
org.apache.hadoop.hbase.mapreduce.TableReducer	故名思意，当MR 的reduce处理结果需要放置在HBase中的时候，那么Reduce应该从这个类型继承

核心是编写继承的Mapper类与Reducer类，以及Job实例完成类型设置，提交任务运行。

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生