公众号【麦小丁】征集优质文章大数据,机器学习,人工智能大数据

《十小时入门大数据》学习笔记之HDFS

2018-12-16  本文已影响16人  腊月的梅花

笔记目录

1. HDFS概述及设计目标

1.1 什么是HDFS
1.2 HDFS的设计目标

2. HDFS架构

1个Master(NameNode/NN) 带N个Slaves(DataNode/DN)
一个文件会被拆分成多个Block,blocksize:128M,eg:130M的文件==>2 block(128M和2M)

3. HDFS副本机制

Replication factor:副本因子/副本系数 ;处理文件的最后一个block,其他的block大小都相同。 图片.png

4. HDFS环境搭建

export JAVA_HOME=/home/hadoop/app/jdk1.8.0_181
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
ssh-keygen -t rsa  #一路回车就行
cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys
hadoop@Dell:~$ ssh localhost  # 接下来输入yes

3). 下载并解压Hadoop

/home/hadoop/app/jdk1.8.0_181
<!-- hadoop1.X的端口是9000,2.X以后的是8020-->
 <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:8020</value>
  </property>
<!-- hadoop默认的存储地址是临时文件夹,在linux下临时文件夹每次重启都会被删除,所以需要添加一个临时文件 -->
 <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop/app/tmp</value>
  </property>
<!-- 由于是伪分步单节点。因此副本系数设置为1-->
 <property>
        <name>dfs.replication</name>
        <value>1</value> 
</property>

5). 启动hdfs

export HADOOP_HOME=/home/hadoop/app/hadoop-2.6.0-cdh5.7.0
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

保存之后一定记得执行:source ~/.bashrc 使配置文件生效。

5. HDFS shell

6. Java API 操作HDFS

<!--  cdh版本的hadoop仓库-->
 <repositories>
    <repository>
      <id>cloudera</id>
      <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
    </repository>
  </repositories>
image.png

7. HDFS 文件读写流程(面试考点)

这里详见 其他简友的笔记: Hadoop学习笔记(三)漫画解读HDFS读写原理

8. HDFS优缺点

1)** 优点**

上一篇下一篇

猜你喜欢

热点阅读