Hadoop集群有3种可以运行的模式:单机(本地)模式、伪分布式模式和全分布式模式。单机模式(standalone)是Hadoop的默认模式,当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时,Hadoop会完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hadoop的守护进程。该模式主要用于开发调试MapReduce程序的应用逻辑。接下来就介绍一下单机模式如何部署。
一、添加用户和用户组
1.1 创建用户hadoop
$ sudo adduser hadoop
1.2 将hadoop用户添加进sudo用户组,编辑/etc/sudoers添加一行
hadoop ALL=(ALL) ALL
二、安装及配置依赖的软件包
2.1 安装JDK
前往http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html下载最新的jdk安装
2.2 配置ssh免密码登录
三、下载并安装Hadoop
3.1 下载Hadoop 2.6.0
$ wget http://archive.apache.org/dist/hadoop/common/hadoop-2.6.5/hadoop-2.6.5.tar.gz
3.2 解压并安装
3.3 配置Hadoop
四、测试验证
使用/etc/protocols作为输入的数据进行测试
执行Hadoop WordCount应用(词频统计)
$ bin/hadoop jar share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.6.5-sources.jar org.apache.hadoop.examples.WordCount input output
查看生成的单词统计数据
以上,讲述的就是如何通过单机模式来对开发过程中MapReduce程序进行调试运行。