转录组学

linux中Trimmomatic安装与使用

2019-10-18  本文已影响0人  ZMQ要加油呀

trimmomatic是一款用来处理illumina测序数据的工具,可以是单条的single reads,也可以是成对的pairend reads。支持压缩格式数据。功能和其他数据处理的程序都差不多,主要包括,1、去除adapter序列以及测序中其他特殊序列;2、采用滑动窗口的方法,切除或者删除低质量碱基

1. 先新建一个文件夹,mkdir trimmomatic

2.  cd Trimmomatic   (后ls)

3. wget http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.38.zip

4. unzip Trimmomatic-0.38.zip

5. cd Trimmomatic-0.38  (后ls)

6.  which java  (java 在/opt/tesc/share/jdk1.8.0-20/bin/java中)

7.  /opt/tesc/share/jdk1.8.0-20/bin/java   (后ls)

8. pwd

9. /opt/tsce/share/jdk1.8.0_20/bin/java -jar /home/HYZ930402/Zmq/trimmomatic/Trimmomatic-0.38/trimmomatic-0.38.jar

10.  ls

11. /opt/tsce/share/jdk1.8.0_20/bin/java -jar /home/HYZ930402/Zmq/trimmomatic/Trimmomatic-0.38/trimmomatic-0.38.jar  --help

12. 进入自己fastq数据的文件夹

13./opt/tsce/share/jdk1.8.0_20/bin/java -jar /home/HYZ930402/Zmq/trimmomatic/Trimmomatic-0.38/trimmomatic-0.38.jar PE -phred33 017_R1.fastq 017_R2.fastq output_forward_paired.fq.gz output_forward_unpaired.fq.gz output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36

(/opt/tsce/share/jdk1.8.0_20/bin/java为Java的路径,-jar /home/HYZ930402/Zmq/trimmomatic/Trimmomatic-0.38/trimmomatic-0.38.jar为该软件所在的位置,需要明确指明质量值体系是Phred33还是Phred64,默认是Phred64,这需要特别注意,因为我们现在的测序数据基本都是Phred33的了,所以一定要指定这个参数。017_R1.fastq 017_R2.fastq要进行过滤的文件,output_forward_paired.fq.gz output_forward_unpaired.fq.gz output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz为输出文件

ILLUMINACLIP,接头序列切除参数。LLUMINACLIP:TruSeq3-PE.fa:2:30:10(省掉了路径)意思分别是:TruSeq3-PE.fa是接头序列,2是比对时接头序列时所允许的最大错配数;30指的是要求PE的两条read同时和PE的adapter序列比对,匹配度加起来超30%,那么就认为这对PE的read含有adapter,并在对应的位置需要进行切除【注】。10和前面的30不同,它指的是,我就什么也不管,反正只要这条read的某部分和adpater序列有超过10%的匹配率,那么就代表含有adapter了,需要进行去除;

LEADING,规定read开头的碱基是否要被切除的质量阈值;

TRAILING,规定read末尾的碱基是否要被切除的质量阈值;

SLIDINGWINDOW,滑动窗口长度的参数,SLIDINGWINDOW:5:20代表窗口长度为5,窗口中的平均质量值至少为20,否则会开始切除;

MINLEN,规定read被切除后至少需要保留的长度,如果低于该长度,会被丢掉。

14. 若要将002_R1.fastq改为002_R1.fastq.gz,直接gzip 002_R2.fastq即可,若要解压,直接gunzip 002_R2.fastq.gz

trimmomatic可以对测序数据进行过滤

java -jar trimmomatic-0.35.jar PE -phred33 input_forward.fq.gz input_reverse.fq.gz output_forward_paired.fq.gz output_forward_unpaired.fq.gz output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz ILLUMINACLIP:$file_path/TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36

运行上面的命令可以完成以下任务

Remove adapters (ILLUMINACLIP:TruSeq3-PE.fa:2:30:10) #去掉接头

Remove leading low quality or N bases (below quality 3) (LEADING:3) #去掉开头质量低于3或N碱基

Remove trailing low quality or N bases (below quality 3) (TRAILING:3) #去掉末尾质量低于3或N碱基

Scan the read with a 4-base wide sliding window, cutting when the average quality per base drops below 15 (SLIDINGWINDOW:4:15) #以4个碱基为滑动窗口对reads进行扫描,当平均质量值低于15时进行剪切

Drop reads below the 36 bases long (MINLEN:36) #去掉长度小于36的reads

上一篇下一篇

猜你喜欢

热点阅读