数据仓库工具安装使用我爱编程

【工具安装和配置】 Hadoop安装和配置

2017-12-14  本文已影响29人  开心跳蚤

创建本地Hadoop集群

Hadoop需要的环境支持

操作系统:Linux
JDK支持:最新版JDK:Linux环境下JDK安装和配置

三种运行模式

这里我们介绍伪分布模式的安装和配置。

Hadoop的安装和配置

1、下载安装

(1)进入Hadoop官网http://hadoop.apache.org/,进入页面后向下拉动,找到如下图所示链接,点击进入

(2)然后,我们将进入会看到Hadoop的各种版本的列表,你可以选择你想要的版本,进行下载,点击对应版本后面的“binary”进入下载页面。

(3)然后,单击第一个链接,即可下载:

(4)将我们下载的hadoop-2.7.4.tar.gz文件放到/opt/hadoop目录下,然后使用超级用户权限执行解压命令

tar -zxvf hadoop-2.7.4.tar.gz

(5)解压之后,我们执行“ls”命令,可以看到在/opt/hadoop目录下多了一个hadoop-2.7.4目录,进入此目录,我们可以看到:

2、修改配置文件

此时,我们需要配置的文件主要是“etc”目录下,进入etc/hadoop目录,我们需要修改的文件主要包括:

core-site.xml     ## Hadoop核心配置文件。
hdfs-site.xml     ## 配置HDFS系统,HDFS后台程序设置的配置:namenode、secondary namenode、datanode
mapred-site.xml    ##  MapReduce后台程序设置的配置:jobtracker和tasktracker。
hadoop-env.sh      ## 环境配置文件,在运行Hadoop的脚本中使用的环境变量。

(1)执行“vim hadoop-env.sh ”,开始编辑hadoop-env.sh ,修改JAVA_HOME的值:

# The java implementation to use.
export JAVA_HOME=/usr/java/jdk1.8.0_151

(2)执行“vim core-site.xml ”,开始编辑core-site.xml:

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <property>
        <name>fs.default.name</name>   
        <value>hdfs://localhost:9000</value>    # NameNode的ip地址和端口
    </property>
</configuration>

(3)执行“vim hdfs-site.xml ”,开始编辑hdfs-site.xml :

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <property>
        <name>dfs.data.dir</name>
        <value>/opt/hadoop/hadoop-2.7.4/data</value>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

说明:
hdfs-site.xml是HDFS的配置文件,这里配置了2个参数

  • dfs.data.dir:本地磁盘目录,HDFS数据库存储数据块的地方。可以是逗号分隔的目录列表,典型的,每个目录在不同的磁盘。这些目录被轮流使用,一个块存储在这个目录,下一个快存储在下一个目录,,一次循环。每个块在同一个机器上仅存储一份。不存在目录被忽略。必须常见文件夹,否则被视为不存在。
  • dfs.replication:数据库副本数。

(4)执行“mapred-site.xml ”,开始编辑mapred-site.xml :

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <property>
        <name>mapred.job.tracker</name>
        <value>localhost:9001</value>   #  作业跟踪器的ip和端口
    </property>
</configuration>
3、设置环境变量

使用root用户编辑/etc/profile文件,添加环境变量。

使环境变量生效

source /ect/profile
4、配置SSH免密登录

配置SSH,生成秘钥,使用SSH可以免密码连接到localhost。
切换目录到 /root 下,执行 ** ssh-keygen -t rsa **,命令,为当前root用户来创建一对秘钥(公钥和私钥)。
id_rsa 为私钥,id_rsa.pub 为公钥


将公钥拷贝到 /root/.ssh/authorized_keys 目录下,用户远程登录时,即可免密码登录。

# cd authorized_keys

5、格式化分布式文件系统

格式化名称节点,在名称节点上建立一系列的结构用来存放HDFS的元数据,执行命令:

[root@localhost hadoop-2.7.4]# bin/hadoop namenode -format

执行完成后,看到如下语句,则说明格式化成功 。

6、启动守护进程

[root@localhost hadoop-2.7.4]# sbin/start-all.sh

输出结果如下:

[root@localhost hadoop-2.7.4]# sbin/start-all.sh
This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh
Starting namenodes on [localhost]
localhost: starting namenode, logging to /opt/hadoop/hadoop-2.7.4/logs/hadoop-root-namenode-localhost.out
localhost: starting datanode, logging to /opt/hadoop/hadoop-2.7.4/logs/hadoop-root-datanode-localhost.out
Starting secondary namenodes [0.0.0.0]
The authenticity of host '0.0.0.0 (0.0.0.0)' can't be established.
ECDSA key fingerprint is 8e:46:af:27:57:3e:fc:b6:c8:b3:a7:0e:1f:02:d2:5a.
Are you sure you want to continue connecting (yes/no)? yes
0.0.0.0: Warning: Permanently added '0.0.0.0' (ECDSA) to the list of known hosts.
0.0.0.0: starting secondarynamenode, logging to /opt/hadoop/hadoop-2.7.4/logs/hadoop-root-secondarynamenode-localhost.out
starting yarn daemons
starting resourcemanager, logging to /opt/hadoop/hadoop-2.7.4/logs/yarn-root-resourcemanager-localhost.out
localhost: starting nodemanager, logging to /opt/hadoop/hadoop-2.7.4/logs/yarn-root-nodemanager-localhost.out

查看任务是否启动成功:

[root@localhost hadoop-2.7.4]# /usr/java/jdk1.8.0_151/bin/jps
18033 DataNode
18433 NodeManager
18775 Jps
17912 NameNode
18188 SecondaryNameNode
18333 ResourceManager
上一篇下一篇

猜你喜欢

热点阅读