我爱编程

hadoop学习笔记(二):伪分布式安装及数据测试

2016-03-20  本文已影响144人  玫瑰小鹿angelina

提前准备:

1、配置网络(包括主机名、虚拟机名)。修改的文件有/etc/hosts 、/etc/sysconfig/network-scripts/ifcg-eth0

2、设置SSH免密码登陆。

虚拟机上执行 :# ssh  主机ip

输入主机密码

# ssh-keygen -t rsa   /*生成密钥*/

# ssh-copy-id  主机ip

ssh 主机ip      /*测试虚拟机免密码登陆主机*/

3、主机安装jdk(先下载所需要的jdk)

(1)先检查是否安装jdk

rpm -qa|grep jdk

(2)   查看jdk版本

java -version

(3)删除所有安装的jdk

yum -y remove jdk {jdk-openss..}

(4)解压,安装

tar -zxvf {jdk.1.7.0...*.tar.gz} -C 安装路径

(5)修改配置文件。/etc/profile

最后加入

(5)查看是否安装成功

java -version

4、创建存放所需软件的文件夹,如opt下创建softwares、data

mkdir /opt/sosftwares

mkdir /opt/data

伪分布式安装hadoop:

requirements:-------->所有都在hadoop-1.7.1-src-->BUILDING.txt文件里

(1) 点击这里下载hadoop版本/**下载到/opt/softwares目录,我选择hadoop-2.7.1版本;另外,一般官网提供已经编译好的hadoop(适合32位系统的),而我要的是64位的,所以下载源码自己编译安装**/

(2)除此以外还需要以下依赖,用yum 安装这些依赖:

yum install autoconf automake libtool cmake ncurses-devel lzo-devel zlib-devel openssl-devel

(3)下载这些必备软件:

下面正式安装****

1、解压各种 #  tar -zxvf hadoop-2.7.1-src.tar.gz -C /opt/softwares

# tar -zxvf findbugs-1.3.9.tar.gz -C /opt/softwares

#  tar -zxvf apache-maven-3.0.5-bin.tar.gz -C /opt/softwares

# tar -zxvf protobuf-2.5.0.tar.gz -C /opt/softwares

2、安装maven,findbugs

#cd  /opt/softwares/apache-maven-3.0.5

查看maven安装路径:# pwd

修改环境变量:#vim /etc/profile

export  MAVEN_HOME=/opt/softwares/apache-maven-3.0.5

export PATH=$MAVEN_HOME/bin

使配置生效:source /etc/profile

查看是否安装成功: mvn -v

同理,安装findbugs....(查看findbugs安装成功? findbugs -version)

/etc/profile环境配置

3、安装protobuf

# cd protobuf-2.5.0

# ./configure

# make install

4、编译hadoop-src源码

#cd hadoop-2.7.1-src

编译#  mvn package -Pdist,native -DskipTests -Dtar

5、安装hadoop,配置文件修改环境变量 。

#cd hadoop-2.7.1

# vim /etc/hadoop/hadoop-env.sh   ,打开加入 export JAVA_HOME=/usr/java/latest,如下:

启动hadoop   #  bin/hadoop

6、修改etc/hadoop/core-site.xml文件

# vim etc/hadoop/core-site.xml

hadoop1.x版本端口号9000;2.x版本也可以是8020

其中,/data/tmp目录是自己创建的,需要手动创建:mkdir data;  mkdir tmp

7、修改etc/hadoop/hdfs-site.xml文件

注意:因为是伪分布式安装,所以副本数为1,如果集群安装,副本就有3份!!

接下来,如果想本地执行MapReduce,则按照8---10步骤;

如果想在YARN(主要资源调度)上执行MapReduce,则按照8(1)-----10(1)步骤;

8、格式化hdfs

# cd hadoop-2.7.1

# bin/hadoop    /***查看hdfs帮助文档,学习hadoop命令操作**/

格式化 #bin/hdfs namenode -format

9、启动HDFS,即有NameNode和DataNode

#     sbin/start-dfs.sh

10、查看进程是否启动成功

#  jps  /******/

8(1)、配置文件 etc/hadoop/mapred-site.xml

# cd  hadoop-2.7.1

#  vim etc/hadoop/mapred-site.xml

9(1)、配置文件etc/hadoop/yarn-site.xml

10(1)、# sbin/start-yarn.sh

查看资源管理监控  http://localhost:8088/      /**同样,localhost替换成主机名***/

11、通过日志监控界面查看信息

http://localhost:50070/                /***localhost是默认值,可以设置为自己的主机名***/

安装至此完成!!

wordcount数据测试:

1、# cd  /opt/data

# touch words

# vim words

words为input文件

2、将文件上传到hdfs中

#  bin/hadoop fs -help

#  bin/hadoop fs -put /opt/data/words /words

已上传成功

3、wordcount   (首先对数据进行分片处理,然后生成Job)

# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /words /out

4、查看输出结果

# bin/hadoop fs -ls /

# bin/hadoop fs -ls /out

# bin/hadoop fs -cat /out/part-r-00000

very nice!!终于可以了.....好想哭!!刚刚简书把我保存的笔记链接访问不到了,吓死宝宝了!!

附上官方Apache Hadoop2.7.1安装手册

上一篇 下一篇

猜你喜欢

热点阅读