生信小白科研信息学

生物信息百Jia软件(二):fastp

2019-08-01  本文已影响7人  基因学苑

编者按

欢迎订阅微信公众号:基因学苑

前面写了专题《手把手教你生物信息分析平台搭建》,然后又介绍了很多《生物神奇网站》资源,也介绍了《生物信息之独孤九剑》Linux操作。那么万事俱备,就开始学习生物信息吧。所以,我们开始新的篇章——《生物信息百jia软件》。百Jia是什么意思呢?可以是百佳,也可以是百家,还可以是百加。从100家中选择100款优秀软件,掌握这些软件,就可以扩展出更多内容,这就是百Jia。

一、功能分类: 数据质控过滤

二、软件官网:

https://github.com/OpenGene/fastp/blob/master/README.md

三、软件介绍:

fastp是一款用来处理测序数据的工具,作者是陈实富,来至于深圳海普洛斯公司。他们将这款工具开源免费使用,这一点是非常值得称赞的。其实国内很多测序公司都有自己开发的数据处理程序,不过很多都在内部使用。

1、fastp可以实现处理数据的一次性处理,包括过滤低质量,过滤adapter,截取reads,split分割大文件等操作

2、支持长reads,也就是不仅仅适用与illumina测序平台,还可以处理Pacbio和Iontorrent的测序数据

3、直接输出质控和统计报告,包括json格式和html格式;

4、使用c++写的,执行效率非常高;

四、下载安装

1、源代码安装

git clone https://github.com/OpenGene/fastp.git

cd fastp

make

make install

2、编译好版本

wget http://opengene.org/fastp/fastp

chmod a+x fastp

五、软件使用:

-i,-I是输入文件

-o,-O是输出文件,软件默认是根据扩展名识别压缩文件,所以输出文件需要加上*.gz扩展名;

-6 指定质量体系是phred64。目前主流测序数据都采用phred33,如果从NCBI下载以前hiseq 2000以及之前的数据,可能是Phred 64质量体系。

-z  输出压缩格式。给定一个数字1-9,调整压缩比率和效率的平衡;

-A 关闭adapter trimming,默认软件会切出adapter,如果设置-A,则关闭这个功能;

-a 给定一个adapter序列文件;对于pairend reads 软件可以自动识别adapter并处理,对于single reads,需要给定一个adapter序列;

-f  -F,-t -T用来截取reads。

-5 和-3也是用来截取reads,分别对应5‘端和3’端,这两个选项与上面的-f和t有什么不同呢,-f 和-t是人为指定截取范围,比如首尾各5bp,得到的reads是相同长度;-5 和-3是根据质量值来截取,低质量数目可能不同,最终得到的reads长度也不同;

-W 滑动窗口过滤,这个类似于计算kmer,默认是4个碱基;

-M -W选择的窗口中,碱基平均质量值,默认是Q20,如果这个区域窗口平均低于20,则认为是一个低质量区域,处理掉。

-Q,-q,-u,-n是与过滤低质量相关的

-Q 控制是否去除低质量,默认自动去除,设置-Q关闭;

-q 设置低质量的标准,默认是15,也就是质量值小于15认为是低质量碱基,一般我们设置20,常说的Q20;

-u 低质量碱基所占百分比,并不是包含低质量碱基就把一条reads丢掉,而是设置一定的比例,默认40代表40%,也就是150bpreads,包含60个以上低质量的碱基就丢掉,只要有一条reads不满足条件就成对丢掉;

-n 过滤N碱基过多的reads;

-L 关闭reads长度过滤选项;

-l 接一个长度值,小于这个长度reads被丢掉,默认是30,这个在处理非illumina测序数据时很有用。

-c 是对overlap的区域进行纠错,所以只适用于pairend reads。

#报告格式选项

-j  输出json格式报告文件名

-h 输出html 格式报告文件名,可以用浏览器直接查看

-w 使用线程数,默认是3

最后是控制split选项,有时候单条reads文件太大,可以分割为多份分别比对,在合并bam结果,这样可以提高效率。

-s 切割数目,默认是0,不分割;

-d 输出前缀位数,默认是4,0001,002这种命名,如果设置为3,就是001,002这种;

-?输出帮助信息;

六、使用案例:

fastp -i reads.1.fq.gz -I reads.2.fq.gz -o clean.1.fq.gz -O clean.2.fq.gz -z 4 -q 20 -u 30 -n 10 -h clean.html

---------- END ----------

上一篇下一篇

猜你喜欢

热点阅读