hadoop(7)--下载数据源码解析(上)

2018-04-11 本文已影响142人 ROCK_杰哥

前面了解了hadoop写文件，读文件的执行过程，那么hadoop内部是怎么实现的呢？接下来看一下从hdfs中读取文件的源码，一起来分析一下，这样就会更加了解hdfs

首先将hadoop/share/common中的jar以及所依赖的lib中的jar，hadoop/share/hdfs中的jar以及所依赖的lib中的jar,导入到工程

image.png

总共59个jar包，写一个测试类

package cn.xmf.haddop;


import org.apache.commons.io.IOUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

import java.io.FileOutputStream;
import java.io.IOException;

/**
 * Created by Administrator on 2018/4/11.
 */
public class hdfs {
    public static void main(String[] args) throws IOException {
        Configuration conf = new Configuration();
        conf.set("fs.defaultFS","hdfs://my01:9000/");
        FileSystem fs = FileSystem.get(conf);
        FSDataInputStream input = fs.open(new Path("/jdk-8u161-linux-x64.tar.gz"));
        FileOutputStream output = new FileOutputStream("d:/jdk8.tgz");
        IOUtils.copy(input,output);
    }
}

运行之后，会将之前hdfs根路径下的jdk下载到d盘，效果如下图

这个就是下载下来的

接下来重点来了将断点打到FileSystem这一行，进入到FilegeSystem的get方法中

image.png

继续点击get,进去

image.png

向下走,会走到

image.png

可以看出三目运算，执行CACHE.get(uri,conf),那么进入到这个里面看看

image.png
Cache是FileSystem的内部类，再往下看

image.png

继续走

image.png

这里就是根据scheme从SERVICE_FILE_SYSTEMS这个里面拿出class,那么hdfs对应对FileSystem的实例是什么，继续看一下

image.png

是DistributedFileSystem终于获得了，下面就很简单，就是将这个class返回，那么在获取FileSystem的时候，其实是根据conf中配置的fs.defaultFS来确定的哪一种FileSystem。OK到这里刚才第一句话的原理才分析透彻，哪一句话呢？

image.png
就是图上的这一句话：
FileSystem fs = FileSystem.get(conf);
好了！到这里先暂停一下，说一下这个FileSystem都有哪些实现类，刚才的DistributedFileSystem看名字的意思就是分布式文件系统，说白了就是hdfs的文件系统，问什么它在命名的时候不叫HdfsFileSystem呢？原因就是：他愿意，哈哈，你能咋地，如果这个是你开发的，你可以叫HdfsFileSystem，但是你不是，我也不是，说这么多就是要记住DistributedFileSystem是HDFS的FileSystem。好了！看一下FileSystem都有哪些实现类