宏基因组分析2-原始数据质检(fastqc)
根据以下教程进行宏基因组分析的练习。
https://2016-metagenomics-sio.readthedocs.io/en/latest/index.html
创建并移动到指定路径。下载原始数据,这个原始数据需要搭梯子才能下载
mkdir /home/llt/test/data/raw
cd /home/llt/test/data/raw
curl -O -L https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1976948_1.fastq.gz
curl -O -L https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1976948_2.fastq.gz
fastqc的安装
用apt安装fastqc,发现软件版本是0.11.5,为了用上最新版本的软件,所以在不删除依赖软件包,且保留配置文件的情况下删除该软件包
apt-get install fastqc
fastqc --version
sudo apt remove fastqc
下载最新版本fastqc,并解压(解压方式:https://www.cnblogs.com/ccyum/p/8616575.html)
mkdir /home/llt/software
cd /home/llt/software
wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.8.zip
sudo apt install unzip default-jre
unzip fastqc_v0.11.8.zip
cd FastQC/
chmod 755 fastqc
./ fastqc --version
到这里最新版的fastqc就安装完了,此时最新的版本是0.11.8,之后可以在http://www.bioinformatics.babraham.ac.uk/projects/fastqc/下载最新的版本。由于软件没有安装在系统的环境变量路径中,所以运行时需要加上路径。可以看出fastqc的软件版本变成了v0.11.8
![](https://img.haomeiwen.com/i16081229/7f0f44219e8730c3.png)
fastqc的运行
我这个ubuntu子系统没有安装图形界面,直接运行fastqc会出现以下提示![](https://img.haomeiwen.com/i16081229/40244893c0baaf28.png)
需要通过命令行来完成操作,命令可以通过-h 或者 --help 来查看。
./ fastqc
./ fastqc -h
利用以下命令来查看原始数据的质量
cd /home/llt/test/data/raw/
mkdir QC
/home/llt/software/FastQC/fastqc SRR1976948_1.fastq.gz SRR1976948_2.fastq.gz -o QC
可以一次性输入多个文件,fastqc会依次对这些文件进行检查。
![](https://img.haomeiwen.com/i16081229/cc92fcc49279caf7.png)
--casava 输入Illumina CASAVA 输出的文件
--nano 输入nanopore的序列文件
。
。
。
最终输出的文件在指定的名为QC的文件夹中,win10系统可以直接访问子系统的文件,直接通过资源管理器访问C:\Users\Administrator\AppData\Local\Packages\CanonicalGroupLimited.Ubuntu18.04onWindows_79rhkp1fndgsc\LocalState\rootfs
在这里我们可以看到ubuntu的根目录,建议在这个位置建立一个快速访问,方便以后的操作。进入到刚才输出的目的QC,可以看到生成了四个文件,可以直接打开html文件直接查看原始数据的质检报告。
![](https://img.haomeiwen.com/i16081229/6e514e02f3cf013a.png)
![](https://img.haomeiwen.com/i16081229/7655108093d6d038.png)
报告中有很多参数,这些参数的意义在官网上都有对应的解释文档。http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/
fastqc的结果分析
以SRR1976948_1的质检结果为例。
Basic Statistics
![](https://img.haomeiwen.com/i16081229/daf95844548c3609.png)
序列名,文件类型,质量值的编码方式,序列条数,过滤的低质量序列数,序列长度,GC含量。
![](https://img.haomeiwen.com/i16081229/200e4777a62d0042.png)
此视图显示整个FastQ文件中每个位置的所有碱基的质量值的范围。这个结果使用箱线图来呈现,中央红线表示中值,黄色框表示四分位数范围(25-75%),上下线代表前10%和90%的质量值,蓝线代表平均质量值。
Warning:任何位置的碱基的下四分位数小于10,或者任何位置的碱基的中位数小于25。Failure:任何位置的碱基的下四分位数小于5或任何位置的碱基的中位数小于20。值得注意的是,显示warning或者显示failure并不意味着测序结果不能使用,可以通过质控来提高数据的质量。
![](https://img.haomeiwen.com/i16081229/c84afdf58b2ba512.png)
Warning:最多的碱基平均质量低于27,相当于0.2%的错误率。Failure:最多的碱基平均质量低于20,相当于1%的错误率。
![](https://img.haomeiwen.com/i16081229/b6ece3d10c994418.png)
此图展示每个位置中各碱基的比例。
![](https://img.haomeiwen.com/i16081229/8f0f141be67e8ac9.png)
![](https://img.haomeiwen.com/i16081229/0d0bffdcb3edee08.png)
![](https://img.haomeiwen.com/i16081229/0dd3925097f48778.png)
![](https://img.haomeiwen.com/i16081229/006af82d3bf6d677.png)
![](https://img.haomeiwen.com/i16081229/efd4b81e36b80fbd.png)
![](https://img.haomeiwen.com/i16081229/e8b9be1aa877a486.png)