hadoop学习笔记（二）：伪分布式安装及数据测试

2016-03-20 本文已影响144人玫瑰小鹿angelina

提前准备：

1、配置网络（包括主机名、虚拟机名）。修改的文件有/etc/hosts 、/etc/sysconfig/network-scripts/ifcg-eth0

2、设置SSH免密码登陆。

虚拟机上执行：# ssh 主机ip

输入主机密码

# ssh-keygen -t rsa /*生成密钥*/

# ssh-copy-id 主机ip

ssh 主机ip /*测试虚拟机免密码登陆主机*/

3、主机安装jdk（先下载所需要的jdk）

（1）先检查是否安装jdk

rpm -qa|grep jdk

（2）查看jdk版本

java -version

（3）删除所有安装的jdk

yum -y remove jdk {jdk-openss..}

（4）解压，安装

tar -zxvf {jdk.1.7.0...*.tar.gz} -C 安装路径

（5）修改配置文件。/etc/profile

最后加入

（5）查看是否安装成功

java -version

4、创建存放所需软件的文件夹，如opt下创建softwares、data

mkdir /opt/sosftwares

mkdir /opt/data

伪分布式安装hadoop:

requirements:-------->所有都在hadoop-1.7.1-src-->BUILDING.txt文件里

(1) 点击这里下载hadoop版本/**下载到/opt/softwares目录，我选择hadoop-2.7.1版本；另外，一般官网提供已经编译好的hadoop(适合32位系统的)，而我要的是64位的，所以下载源码自己编译安装**/

(2)除此以外还需要以下依赖，用yum 安装这些依赖：

yum install autoconf automake libtool cmake ncurses-devel lzo-devel zlib-devel openssl-devel

（3）下载这些必备软件：

下面正式安装****

1、解压各种 # tar -zxvf hadoop-2.7.1-src.tar.gz -C /opt/softwares

# tar -zxvf findbugs-1.3.9.tar.gz -C /opt/softwares

# tar -zxvf apache-maven-3.0.5-bin.tar.gz -C /opt/softwares

# tar -zxvf protobuf-2.5.0.tar.gz -C /opt/softwares

2、安装maven，findbugs

#cd /opt/softwares/apache-maven-3.0.5

查看maven安装路径：# pwd

修改环境变量：#vim /etc/profile

export MAVEN_HOME=/opt/softwares/apache-maven-3.0.5

export PATH=$MAVEN_HOME/bin

使配置生效：source /etc/profile

查看是否安装成功： mvn -v

同理，安装findbugs....（查看findbugs安装成功？ findbugs -version）

/etc/profile环境配置

3、安装protobuf

# cd protobuf-2.5.0

# ./configure

# make install

4、编译hadoop-src源码

#cd hadoop-2.7.1-src

编译# mvn package -Pdist,native -DskipTests -Dtar

5、安装hadoop，配置文件修改环境变量。

#cd hadoop-2.7.1

# vim /etc/hadoop/hadoop-env.sh ，打开加入 export JAVA_HOME=/usr/java/latest,如下：

启动hadoop # bin/hadoop

6、修改etc/hadoop/core-site.xml文件

# vim etc/hadoop/core-site.xml

hadoop1.x版本端口号9000;2.x版本也可以是8020

其中，/data/tmp目录是自己创建的，需要手动创建：mkdir data; mkdir tmp

7、修改etc/hadoop/hdfs-site.xml文件

注意：因为是伪分布式安装，所以副本数为1，如果集群安装，副本就有3份！！

接下来，如果想本地执行MapReduce，则按照8---10步骤；

如果想在YARN（主要资源调度）上执行MapReduce，则按照8（1）-----10（1）步骤；

8、格式化hdfs

# cd hadoop-2.7.1

# bin/hadoop /***查看hdfs帮助文档，学习hadoop命令操作**/

格式化 #bin/hdfs namenode -format

9、启动HDFS,即有NameNode和DataNode

# sbin/start-dfs.sh

10、查看进程是否启动成功

# jps /******/

8（1）、配置文件 etc/hadoop/mapred-site.xml

# cd hadoop-2.7.1

# vim etc/hadoop/mapred-site.xml

9(1)、配置文件etc/hadoop/yarn-site.xml

10(1)、# sbin/start-yarn.sh

查看资源管理监控 http://localhost:8088/ /**同样，localhost替换成主机名***/

11、通过日志监控界面查看信息

http://localhost:50070/ /***localhost是默认值，可以设置为自己的主机名***/

安装至此完成！！

wordcount数据测试：

1、# cd /opt/data

# touch words

# vim words

words为input文件

2、将文件上传到hdfs中

# bin/hadoop fs -help

# bin/hadoop fs -put /opt/data/words /words

已上传成功

3、wordcount (首先对数据进行分片处理，然后生成Job)

# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /words /out

4、查看输出结果

# bin/hadoop fs -ls /

# bin/hadoop fs -ls /out

# bin/hadoop fs -cat /out/part-r-00000

very nice!!终于可以了.....好想哭！！刚刚简书把我保存的笔记链接访问不到了，吓死宝宝了！！

附上官方Apache Hadoop2.7.1安装手册

hadoop学习笔记（二）：伪分布式安装及数据测试

猜你喜欢

热点阅读