FastQC及MultiQC整合使用
FastQC
FastQC 是一个基于Java写的测序数据质量评估软件。因为是用跨平台的语言Java写的,自然而然FastQC应是可以在不同系统运行的了。不过也许大多时候我们还是在Linux服务器上用的多吧。
安装
安装软件,方便的还是通过conda
了,一行命令:
$ conda install -c bioconda fastqc -y
当然这需要你已经安装了anaconda的前提下。
若没有的安装anaconda的话,可以选择安装anaconda(这更方便点)或者用使用官方安装方式。
官方软件包下载:
https://www.bioinformatics.babraham.ac.uk/projects/fastqc/
官方安装说明:
https://raw.githubusercontent.com/s-andrews/FastQC/master/INSTALL.txt
这里需要提醒的是一般Linux系统是已经安装了Java的了。而若在Window下,则需要先安装好Java才可以使用FastQC。
若在有桌面环境的电脑下,FastQC其实提供了交互式的GUI操作界面,具体使用参考上面的官方安装说明
Win10 FastQC
使用
FastQC GUI操作界面看上图就发现了很简单。不过多数我们还是通过Linux命令行使用,这更灵活一点。下面以CentOS7 下的 FastQC v0.11.9为例进行简单讲解。
fastqc [-o output dir] [-t threads] [-f fastq|bam|sam] seqfile1 .. seqfileN
参数 | 说明 |
---|---|
-o | 指定输出目录 |
-t | 线程数 |
-f | 输入文件格式,默认是fastq的 |
seqfile | 位置参数,输入文件,可输入多个文件或使用通配符匹配多个文件 |
例如下面例子,采用10个线程,输出地址是atac, 输入文件包裹通过*匹配多个文件作为输入
$ fastqc ATAC.1*day.r*.fq.gz -o atac/ -t 10
输出报告是html网页文件,需要传到win下方便查看。有多少个输入文件,就有多少个html报告。
若需要详细的参数说明可使用参数-h
$ fastqc -h
以及查看官方文档(也提供了一些质量报告例子供参考):
https://www.bioinformatics.babraham.ac.uk/projects/fastqc/
fastqc
MultiQC
FastQC的输出是每一个输入文件对应一个输出报告,当有多个输入文件,会产生多个输出报告。这时一个一个查看,以及它们之间需要对比的也不是很方便。MultiQC的产生解决了这个问题,它可以将FastQC产生的多个输出报告,整合为一个,方便查看。
安装
MultiQC 是个Python包,可以通过pip下载
$ pip install multiqc
或
$ conda install -c bioconda multiqc
使用
MultiQC 有很多参数的,下面例子是个简单示例。
$ multiqc atac/ -o all -n test
参数 | 说明 |
---|---|
dir | atac/, 分析整合目录 |
-o | 整合后的输出目录 |
-n | 输入文件名字,默认multiqc_report |
参考
https://multiqc.info/
http://www.bioinformatics.babraham.ac.uk/projects/fastqc/