生信小白

生物信息百Jia软件(十二):trimmomatic

2019-08-08  本文已影响3人  基因学苑

欢迎订阅WX众号:基因学苑,更多精彩内容等你发掘!

基因学苑Q群:32798724

通哥点评

数据处理的工具其实有很多,前面我们也介绍过了fastp。因为处理的原则都差不多,最重要的是了解数据处理的原理,为何要过滤低质量,N碱基,adapter,duplication等。我自己是不喜欢用trimmomatic的,因为参数比较复杂,其实,以前我的同事们好多人都自己写个工具,只不过大家没觉得数据处理还是一个很大的问题,并不像老外把处理处理的工具都发表出来,刷了一篇SCI。

一、功能分类: 

数据处理软件

二、软件官网:

http://www.usadellab.org/cms/index.php?page=trimmomatic

三、软件介绍:

trimmomatic是一款用来处理illumina测序数据的工具,可以是单条的single reads,也可以是成对的pairend reads。支持压缩格式数据。功能和其他数据处理的程序都差不多,主要包括,

1、去除adapter序列以及测序中其他特殊序列;

2、采用滑动窗口的方法,切除或者删除低质量碱基;

3、去除头部低质量以及N碱基过多的reads;

4、去除尾部低质量以及N碱基过多的reads;

5、截取固定长度的reads;

6、丢掉小于一定长度的reads;

7、Phred 质量值转换

四、下载安装: 

wgethttp://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.36.zip

unzip Trimmomatic-0.36.zip

五、软件使用: 

下面看一下选项参数。分为PE和SE。

-version软件版本

-threads 线程数

-phred33 -phred64 质量值体系,默认是-phred64,但是目前使用的几乎都是-phred33,所以这个要设置,很多程序是可以自动识别的。

-trimlog  截取的日志文件

-quiet 安静运行运行

-validatePairs

-basein 输入文件,可以直接是序列,也可以是reads文件,一般都是reads1和reads2

-baseout 输出文件,这里比较麻烦,前面我们介绍过如果是pairend reads,会输出四个文件,其中两个没什么用,但是这里需要搞清楚输出文件顺序,解释起来比较麻烦,比如第一个是reads 1和2满足过滤条件的reads文件,第二个reads1满足过滤条件的,reads2不满足的reads1文件,后两个是reasds2的情况

SE的情况和PE差不多,比PE简单。

除了软件中列出这些选项参数,还有很多没列出来,比如很多调节参数,滑动窗口大小,质量值大小,最小序列长度等,这些都需要通过关键字加上冒号的方法来设置,很不方便。

六、使用案例: 

案例一:single情况

java-jartrimmomatic-0.35.jarSE-phred33input.fq.gzoutput.fq.gz

案例二:pair-end情况

java-jartrimmomatic-0.35.jarPE-phred33input_forward.fq.gzinput_reverse.fq.gzoutput_forward_paired.fq.gzoutput_forward_unpaired.fq.gzoutput_reverse_paired.fq.gzILLUMINACLIP:TruSeq3-PE.fa:2:30:10LEADING:3TRAILING:3SLIDINGWINDOW:4:15MINLEN:36

七、注意事项:

1、根据测序数据时间情况选择引物序列,TruSeq2或者TruSeq3。

上一篇 下一篇

猜你喜欢

热点阅读