hadoop简介和配置

2018-09-06  本文已影响0人  静听风雨落

Hadoop包含三个模块:

  1、Hadoop Common:
            支持其他模块的工具模块
  2、Hadoop Distributed File System (HDFS):
            分布式文件系统, 提供对应用程序数据的高吞吐量访问.
            NameNode        //名称节点   --NN        放置目录
            DateNode          //数据节点   --DN        放置数据
            SecondaryNameNode    //辅助名称节点  --2NN    放置备份目录
  3、Hadoop YARN: 
            作业调度与集群资源管理的框架
  4、Hadoop MapReduce:
            基于yarn系统的对大数据集进行并行处理技术.
             ResourceManager      //资源管理器  --RM
             NodeManager             //节点管理器  --NM

配置Hadoop

  1. Standalone/local
          独立/本地模式 (默认模式)
          查看文件系统的方式: hadoop fs -ls
          没有启动任何java进程
          用于测试和开发模式
  2. Pseudodistributed mode
          伪分布模式
          配置过程:
           a. core-site.xml
               '''
                    <configuration>
                             <property>
                                 <!-- 默认的文件系统 -->
                                 <name> fs.defaultFS</name>
                                 <value>hdfs://localhost/</value>
                            </property>
                    </configuration>
               '''
           b. hdfs-site.xml
              '''
              <?xml version="1.0"?>
              <configuration>
                    <property>
                          <!-- 副本数 -->
                          <name>dfs.replication</name>
                          <value>1</value>
                    </property>
              </configuration>
              '''
            c. mapred-site.xml
                '''
                <configuration>
                      <property>
                             <!--   -->
                             <name>mapreduce.framework.name</name>
                             <value>yarn</value>
                      </property>
                </configuraion>  
                '''
            d. yarn.site.xml
                '''
                <configuration>
                      <property>
                              <!-- 资源管理器 -->
                              <name>yarn.resourcemanager.hostname</name>
                              <value>localhost</value>
                      </property>
                       <property>
                              <!-- 节点管理器 -->
                              <name>yarn.nodemanager.aux-services</name>
                              <value>mapreduce_shuffle</value>
                      </property>
                </configuration>
                '''
              * e. 配置SSH
                  安全登录
                  1) 安装ssh
                              $>sudo apt-get install ssh
                  2)生成秘钥对
                              $>ssh-keygen -t  rsa -p ''  -f  ~/.ssh/id_rsa
                              $>cd ~/.ssh           //查看生成的公私秘钥        
                  3)导入公钥数据到授权库    
                              $>cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys    
                  4) 登录localhost
                              $>ssh localhost                    //不需要密码
                  5)格式化hdfs文件系统
                              $>hadoop namenode -format
                  6)启动所有进程
                              $>start-all.sh
                  7)查看进程
                               $>jps                 //共有五个进程 RM NM NN DN 2NN
                  8)查看文件系统
                               $>hadoop  fs  -ls
                  9)创建文件系统
                               $>hadoop fs -mkdir -p /user/ubuntu/data
                               $>hadoop fs -ls -R /
  3. Fully distributed mode
          完全分布式
上一篇下一篇

猜你喜欢

热点阅读