trimmomatic 去除接头
2019-07-11 本文已影响0人
上校的猫
官方下载和说明
http://www.usadellab.org/cms/index.php?page=trimmomatic
使用方法
在linux上下载 binary 版解压,里边有 trimmomatic-0.39.jar java可执行文件,修改权限 chmod 777 trimmomatic-0.39.jar
。
path=/home/zdyx12
trimmomatic=/home/zdyx12/program/Trimmomatic-0.39/trimmomatic-0.39.jar
adapter=/home/zdyx12/program/Trimmomatic-0.39/adapters/TruSeq3-PE.fa
R1=${path}/raw/R1.fastq.gz
R2=${path}/raw/R2.fastq.gz
R1p=${path}/paired1.fq
R1unp=${path}/unpaired1.fq
R2p=${path}/paired2.fq
R2unp=${path}/unpaired2.fq
java -jar $trimmomatic PE -threads 32 -phred33 $R1 $R2 $R1p $R1unp $R2p $R2unp ILLUMINACLIP:$adapter:2:30:10:8:true LEADING:3 TRAILING:3 SLIDINGWINDOW:4:20 MINLEN:50
ILLUMINACLIP:$adapter:2:30:10:8:true
: 从左向右分别表示接头文件路径,第一步 seed 搜索允许2个碱基错配,palindrome 比对分值阈值 30,simple clip 比对分值阈值 10,palindrome 模式允许切除的最短接头序列为 8bp(默认值,据说可以改为1,更加彻底的去除接头),palindrome 模式去除与 R1 完全反向互补的 R2(默认去除)
LEADING:3 TRAILING:3 SLIDINGWINDOW:4:20 MINLEN:50
:LEADING:3 正向碱基质量小于3的序列都切除,直到大于等于3(因为ILLUMINA平台一般碱基最小质量为2),TRAILING:3 反向(同上),滑动窗口为4保留平均质量大于20的碱基,最后经过剪切后如果长度小于50则丢弃。
fastp 可以作为另一种尝试的选择
https://github.com/OpenGene/fastp
http://wap.sciencenet.cn/blog-3406804-1161192.html?mobile=1
测试了下,同样50G fq.gz 双端测序文件,同样32线程,比trimmomatic慢。但是可以直接生成gz格式的文件,并且双端测序数据不需要输入接头文件,会根据overlap 得到接头。