hadoop 学习笔记（一）

2021-06-15 本文已影响0人顾子豪

Hadoop产生背景

1、Hadoop 最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索
引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题 ——如何解决数十亿网页的
存储和索引问题
2、2003 -2004年谷歌发表的三篇论文为该问题提供了可行的解决方案

1、分布式文件系统 GFS，可用于处理海量网页的存储
2、分布式计算框架 MapReduce，可用于处理海量网页的索引计算问题
3、分布式数据库 BigTable，每一张表可以存储上 billions 行和 millions 列

3、Nutch的开发人员完成了相应的开源实现HDFS 和 MapReduce，并从Nutch中剥离成为独立项目
Hadoop，到 2008 年 1 月，Hadoop 成为Apache 顶级项目，迎来了它的快速发展期。

什么是Hadoop？

1、Hadoop 是 Apache 旗下的一套开源软件平台
2、Hadoop 提供的功能：利用服务器集群，根据用户的自定义业务逻辑，对海量数据进行分布式处理
存储+运算
3、Hadoop 的核心组件有：

A．Common（基础功能组件）
B．HDFS（Hadoop Distributed File System 分布式文件系统）
C．YARN（Yet Another Resources Negotiator 运算资源调度系统）
D．MapReduce（Map 和 Reduce 分布式运算编程框架）

4、广义上来说，Hadoop 通常是指一个更广泛的概念--Hadoop 生态圈

官方WordCount案例演示

1、创建一个wcinput文件夹，注意是在hdfs上面创建，不是在本地创建

hadoop fs -mkdir /wcinput

2、在本地任意文件夹下面创建文件并上传到hdfs上面，我这里是在本地的/home/test目录下面创建的wordcount.txt

3、任意目录下运行官方wordcount程序

[bigdata@bigdata02 test]$ hadoop jar /home/bigdata/apps/hadoop-2.7.7/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount /wcinput /wcoutput

4、去hdfs上面查看

官方求圆周率π案例

[bigdata@bigdata02 test]$ hadoop jar /home/bigdata/apps/hadoop-2.7.7/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar pi 5 5

注：
Number of Maps = 5
Samples per Map = 5
结果：

HDFS设计思路

HDFS 被设计成用来使用低廉的服务器来进行海量数据的存储，那是怎么做到的呢？
1、大文件被切割成小文件，使用分而治之的思想对同一个文件进行管理
2、每个切分之后的块都进行冗余存储，高可用不丢失

HDFS架构

1、namenode：掌管文件系统的目录树，处理客户端的请求，保存元数据信息
2、datanode：存储实际的数据的，处理真正的读写
3、secondnamenode：分担namenode压力的，协助合并元数据信息

HDFS优缺点

优点：
1、可构建在廉价机器上
通过多个副本来提高可靠性，文件切分多个块进行存储
2、高容错性
数据自动保存多个副本，副本丢失后，可以自动恢复
3、适合批处理
移动计算比移动数据方便
4、适合大数据处理
10k+节点规模
5、流式文件访问
一次写入，多次读取，可以保证数据的一致性

缺点：

不适于以下操作
1、要求高的数据访问
比如毫秒级
2、小文件存取
寻道时间超过读取时间
3、并发写入、文件随机修改
一个文件只能有一个写
仅仅支持追加
4、不适合存储小文件
存储一个1亿个小文件，大小仅仅1t，但是消耗掉20g左右的内存

HDFS常用命令

-help
功能：输出这个命令参数手册
[root@hadoop0 software]# hadoop fs -help
-ls
功能：显示目录信息
示例： hadoop fs -ls hdfs://hadoop0:9000/
备注：这些参数中，所有的 hdfs 路径都可以简写成 hadoop fs -ls / 等同上条命令的效果
-put
功能：等同于 copyFromLocal，进行文件上传
示例：hadoop fs -put /aaa/jdk.tar.gz /bbb/jdk.tar.gz
-get
功能：等同于 copyToLocal，就是从 hdfs 下载文件到本地
示例：hadoop fs -get /aaa/jdk.tar.gz
-cp
功能：从 hdfs 的一个路径拷贝到 hdfs 的另一个路径
示例： hadoop fs -cp /aaa/jdk.tar.gz /bbb/jdk.tar.gz.2
-mv
功能：在 hdfs 目录中移动文件
示例： hadoop fs -mv /aaa/jdk.tar.gz /
-rm
功能：删除文件或文件夹
示例：hadoop fs -rm -r /aaa/bbb/
-rmdir
功能：删除空目录
示例：hadoop fs -rmdir /aaa/bbb/ccc
-moveFromLocal
功能：从本地剪切到 hdfs
示例：hadoop fs - moveFromLocal /home/hadoop/a.txt /aa/bb/cc/dd
-moveToLocal
功能：从 hdfs 剪切到本地
示例：hadoop fs - moveToLocal /aa/bb/cc/dd /home/hadoop/a.txt
-copyFromLocal
功能：从本地文件系统中拷贝文件到 hdfs 文件系统去
示例：hadoop fs -copyFromLocal ./jdk.tar.gz /aaa/
-copyToLocal
功能：从 hdfs 拷贝到本地
示例：hadoop fs -copyToLocal /aaa/jdk.tar.gz
-appendToFile
功能：追加一个文件到已经存在的文件末尾
示例：hadoop fs -appendToFile ./hello.txt hdfs://hadoop0:9000/hello.txt
可以简写为：
hadoop fs -appendToFile ./hello.txt /hello.txt
-cat
功能：显示文件内容
hadoop fs -cat /hello.txt
-tail
功能：显示一个文件的末尾
示例：hadoop fs -tail /weblog/access_log.1
-text
功能：以字符形式打印一个文件的内容
示例：hadoop fs -text /weblog/access_log.1
-chgrp
-chmod
-chown
功能：linux 文件系统中的用法一样，对文件所属权限
示例：
hadoop fs -chmod 666 /hello.txt
hadoop fs -chown someuser:somegrp /hello.txt
-df
功能：统计文件系统的可用空间信息
示例：hadoop fs -df -h /
-du
功能：统计文件夹的大小信息
示例：hadoop fs -du -s -h /aaa/*
-count
功能：统计一个指定目录下的文件节点数量
示例：hadoop fs -count /aaa/
-setrep
功能：设置 hdfs 中文件的副本数量
示例：hadoop fs -setrep 3 /aaa/jdk.tar.gz

查看 dfs 集群工作状态的命令:
hdfs dfsadmin -report

获取hdfs端口号：
hdfs getconf -confKey fs.default.name

HDFS的API操作

注：
这里使用的是hadoop2.7.7版本

获取FileSystem
有4种方式：
（1）方式1：set+get方式

public void getFileSystem01() throws IOException {
        //1.创建Configuration对象
        Configuration conf = new Configuration();
        //2.设置文件系统类型
        conf.set("fs.defaultFS", "hdfs://bigdata02:8020");

        //3.获取指定文件系统fileSystem;
        FileSystem fileSystem = FileSystem.get(conf);
        //4.输出测试
        System.out.println(fileSystem);
    }

（2）方式2：set方式+newInstance

public void getFileSystem02() throws IOException {
        //1.创建Configuration对象
        Configuration conf = new Configuration();
        //2.设置文件系统类型
        conf.set("fs.defaultFS", "hdfs://bigdata02:8020");

        //3.获取指定文件系统fileSystem;
        FileSystem fileSystem = FileSystem.newInstance(conf);
        //4.输出测试
        System.out.println(fileSystem);
    }

（3）方式3：new URI+get

public void getFileSystem03() throws URISyntaxException, IOException {
        FileSystem fileSystem = FileSystem.get(new URI("hdfs://bigdata02:8020"), new Configuration());
        System.out.println(fileSystem);
    }

（4）方式4：new URI+newInstance

public void getFileSystem04() throws URISyntaxException, IOException {
        FileSystem fileSystem = FileSystem.newInstance(new URI("hdfs://bigdata02:8020"), new Configuration());
        System.out.println(fileSystem);
    }

文件的遍历

public void listFiles() throws Exception {
        //1.获取FileSystem实例
        FileSystem fileSystem = FileSystem.get(new URI("hdfs://bigdata02:9000"), new Configuration());
        //2、调用方法listFiles 获取/目录下的所有文件信息
        RemoteIterator<LocatedFileStatus> iterator = fileSystem.listFiles(new Path("/"), true);

        //3、遍历迭代器
        while (iterator.hasNext()) {
            LocatedFileStatus fileStatus = iterator.next();

            //获取文件的绝对路径：hdfs://bigdata:8020/xxx
            System.out.println(fileStatus.getPath() +
                    "------------------" + fileStatus.getPath().getName());
            //文件的block信息
            BlockLocation[] blockLocations = fileStatus.getBlockLocations();
            for (BlockLocation blockLocation : blockLocations) {
                String[] hosts = blockLocation.getHosts();
                for (String host : hosts) {
                    System.out.println("主机为："+host);
                }
            }
            System.out.println("block数量为："+blockLocations.length);
        }
    }

创建文件夹

public void mkdirs() throws Exception {
        //1、获取FileSystem实例
        FileSystem fileSystem = FileSystem.get(new URI("hdfs://bigdata02:9000"), new Configuration(), "bigdata");
        //2、创建文件夹
        boolean bl = fileSystem.mkdirs(new Path("guxiaohao/bbb/ccc"));
        fileSystem.create(new Path("guxiaohao/bbb/ccc/a.txt"));
        fileSystem.create(new Path("guxiaohao2/bbb/ccc/a.txt"));
        System.out.println(bl);
        //3、关闭FileSystem
        fileSystem.close();
    }

文件的上传

 public void uploadFile() throws Exception {
        //1.获取FileSystem
        FileSystem fileSystem = FileSystem.get(new URI("hdfs://bigdata02:9000"), new Configuration(), "bigdata");
        //2、调用方法实现上传
        fileSystem.copyFromLocalFile(new Path("G:\\bigdata\\bigdataDir\\test3.txt"), new Path("/"));
        //3、关闭FileSystem
        fileSystem.close();
    }

文件的下载
(1)使用copyToLocalFile

public void downloadFile1() throws Exception {
        //1.获取FileSystem
        FileSystem fileSystem = FileSystem.get(new URI("hdfs://bigdata02:9000"), new Configuration());
        //2、调用方法实现下载
        //注意设置false和true两个参数，否则IDEA运行报错：
        //(null) entry in command string: null chmod 0644 G:\bigdata\bigdataDir\test_download.txt
        fileSystem.copyToLocalFile(false, new Path("/test.txt"), new Path("G:\\bigdata\\bigdataDir\\test_download.txt"), true);
        //3、关闭FileSystem
        fileSystem.close();
    }

（2）通过输入输出流

public void downloadFile2() throws Exception {
        //1.获取FileSystem
        FileSystem fileSystem = FileSystem.get(new URI("hdfs://bigdata02:9000"), new Configuration());
        //2、获取hdfs输入流
        FSDataInputStream inputStream = fileSystem.open(new Path("/test.txt"));
        //3、获取本地路径输出流
        FileOutputStream outputStream = new FileOutputStream("G:\\bigdata\\bigdataDir\\test_download2.txt");
        //4、文件的拷贝
        IOUtils.copy(inputStream, outputStream);
        //5、关闭流
        IOUtils.closeQuietly(inputStream);
        IOUtils.closeQuietly(outputStream);
        fileSystem.close();
    }

文件合并下载：通过命令方式

在根目录下面新建一个文件夹

hadoop fs -mkdir -p /test

将test1.txt和test2.txt移动到/test文件夹下面

[bigdata@bigdata02 ~]# hadoop fs -mv /test1.txt /test
[bigdata@bigdata02 ~]# hadoop fs -mv /test2.txt /test

通过getmerge命令合并下载文件到当前目录下面：

[bigdata@bigdata02 ~]# hadoop fs -getmerge /test/*.txt ./test_merge.txt
[bigdata@bigdata02 ~]# ll
total 8
-rw-r--r--. 1 root root 36 Jun 24 19:50 test2.txt
-rw-r--r--. 1 root root 74 Jun 24 20:34 test_merge.txt
[bigdata@bigdata02 ~]# cat test_merge.txt
hello world
hello hadoop
hello hbasehello world
hello hive
hello flume

文件合并下载：通过API方式

public void mergeFileDownload() throws Exception {
        //1.获取FileSystem
        FileSystem fileSystem = FileSystem.get(new URI("hdfs://bigdata02:9000"), new Configuration());

        //2、获取本地文件系统
        LocalFileSystem localFileSystem = FileSystem.getLocal(new Configuration());
        //3、获取本地路径输出流
        FileOutputStream outputStream = new FileOutputStream("G:\\bigdata\\bigdataDir\\output_down.txt");

        //4、获取hdfs下所有的文件详情
        FileStatus[] fileStatuses = fileSystem.listStatus(new Path("/"));
        //5、遍历每个文件，获取每个文件的输入流，将输入流转为byte数组，写入（追加）输出流
        for (FileStatus fileStatus : fileStatuses) {
            //6、获取hdfs文件输入流
            FSDataInputStream inputStream = fileSystem.open(fileStatus.getPath());
            //7、将输入流转为byte数组，写入（追加）输出流
            byte[] bt = new byte[1024];
            int n = 0;
            while (-1 != (n = inputStream.read(bt))) {
                outputStream.write(bt, 0, n);
            }
            //8、关闭输入流·
            IOUtils.closeQuietly(inputStream);
        }
        //9、关闭流
        IOUtils.closeQuietly(outputStream);
        localFileSystem.close();
        fileSystem.close();
    }

文件合并上传：通过Java API方式

public void mergeFileUpload() throws Exception {
        //1.获取FileSystem
        FileSystem fileSystem = FileSystem.get(new URI("hdfs://bigdata02:9000"), new Configuration(), "bigdata");
        //2、获取hdfs大文件输出流
        FSDataOutputStream outputStream = fileSystem.create(new Path("/test.txt"));
        //3、获取一个本地文件系统
        LocalFileSystem localFileSystem = FileSystem.getLocal(new Configuration());
        //4、获取本地文件夹下所有的文件详情
        FileStatus[] fileStatuses = localFileSystem.listStatus(new Path("G:\\bigdata\\bigdataDir\\input"));
        //5、遍历每个文件，获取每个文件的输入流
        for (FileStatus fileStatus : fileStatuses) {
            FSDataInputStream inputStream = localFileSystem.open(fileStatus.getPath());
            //6、将小文件的数据复制到大文件
            IOUtils.copy(inputStream, outputStream);
            IOUtils.closeQuietly(inputStream);
        }
        //7、关闭流
        IOUtils.closeQuietly(outputStream);
        localFileSystem.close();
        fileSystem.close();
    }