metagenomic

宏基因组分析2-原始数据质检(fastqc)

2019-02-01  本文已影响0人  nitrostarch

根据以下教程进行宏基因组分析的练习。
https://2016-metagenomics-sio.readthedocs.io/en/latest/index.html

创建并移动到指定路径。下载原始数据,这个原始数据需要搭梯子才能下载

mkdir /home/llt/test/data/raw
cd /home/llt/test/data/raw
curl -O -L https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1976948_1.fastq.gz
curl -O -L https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1976948_2.fastq.gz

fastqc的安装

用apt安装fastqc,发现软件版本是0.11.5,为了用上最新版本的软件,所以在不删除依赖软件包,且保留配置文件的情况下删除该软件包

apt-get install fastqc
fastqc --version
sudo apt remove fastqc

下载最新版本fastqc,并解压(解压方式:https://www.cnblogs.com/ccyum/p/8616575.html)

mkdir /home/llt/software
cd /home/llt/software
wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.8.zip
sudo apt install unzip default-jre

unzip fastqc_v0.11.8.zip
cd FastQC/
chmod 755 fastqc
./ fastqc --version

到这里最新版的fastqc就安装完了,此时最新的版本是0.11.8,之后可以在http://www.bioinformatics.babraham.ac.uk/projects/fastqc/下载最新的版本。由于软件没有安装在系统的环境变量路径中,所以运行时需要加上路径。可以看出fastqc的软件版本变成了v0.11.8

fastqc的运行

我这个ubuntu子系统没有安装图形界面,直接运行fastqc会出现以下提示

需要通过命令行来完成操作,命令可以通过-h 或者 --help 来查看。

./ fastqc
./ fastqc -h

利用以下命令来查看原始数据的质量

cd /home/llt/test/data/raw/
mkdir QC
/home/llt/software/FastQC/fastqc SRR1976948_1.fastq.gz SRR1976948_2.fastq.gz -o QC

可以一次性输入多个文件,fastqc会依次对这些文件进行检查。

注意:输出目录必须是已经存在的目录,若没有需要先建立。fastqc还有其他的参数可供选择,可通过-h 来查看:
--casava 输入Illumina CASAVA 输出的文件
--nano 输入nanopore的序列文件



最终输出的文件在指定的名为QC的文件夹中,win10系统可以直接访问子系统的文件,直接通过资源管理器访问C:\Users\Administrator\AppData\Local\Packages\CanonicalGroupLimited.Ubuntu18.04onWindows_79rhkp1fndgsc\LocalState\rootfs
在这里我们可以看到ubuntu的根目录,建议在这个位置建立一个快速访问,方便以后的操作。进入到刚才输出的目的QC,可以看到生成了四个文件,可以直接打开html文件直接查看原始数据的质检报告。
报告中有很多参数,这些参数的意义在官网上都有对应的解释文档。http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/

fastqc的结果分析

以SRR1976948_1的质检结果为例。

Basic Statistics

序列名,文件类型,质量值的编码方式,序列条数,过滤的低质量序列数,序列长度,GC含量。


此视图显示整个FastQ文件中每个位置的所有碱基的质量值的范围。这个结果使用箱线图来呈现,中央红线表示中值,黄色框表示四分位数范围(25-75%),上下线代表前10%和90%的质量值,蓝线代表平均质量值。
Warning:任何位置的碱基的下四分位数小于10,或者任何位置的碱基的中位数小于25。Failure:任何位置的碱基的下四分位数小于5或任何位置的碱基的中位数小于20。值得注意的是,显示warning或者显示failure并不意味着测序结果不能使用,可以通过质控来提高数据的质量。


此视图展示序列的子集是否具有普遍的低质量值。如果序列子集的质量普遍较差,通常是因为它们的成像效果很差(在视场边缘等),但是这些序列只占序列总数的一小部分。如果有相当大比例的序列整体质量低,那么这可能表明测序运行中系统存在某种问题。
Warning:最多的碱基平均质量低于27,相当于0.2%的错误率。Failure:最多的碱基平均质量低于20,相当于1%的错误率。

此图展示每个位置中各碱基的比例。







上一篇下一篇

猜你喜欢

热点阅读