cutadapt用法案例
详细的教程官方已经给出。
这里记录自己常用的方法:
什么是 5’接头,就是一段序列之后跟了adapter。 XXXXXXXXXXXXXXadapter
什么是 3’接头,就是adapter在序列开始。 adapterXXXXXXXXXXXXXX
假如说我的情况属于第一种。就使用-a参数。
属于第二种,就使用-g参数。举例:
cutadapt -a adapter=ATATCCAGAACCCTGACCCTGCCGTGTACCAGCTGAC -O 10 -o G18E2L2_R1.p1.fq -r R1.p2.fq --info-file=R1.cutadapt.log /your/fastq/fastq_1.fq.gz > R1.cutadapt.stats
cutadapt -g adapter=CACAGCGACCTCGGGTGGGAACACCTTGTTCAGGTCT -O 10 -o G18E2L2_R2.p1.fq -r R2.p2.fq --info-file=R2.cutadapt.log /your/fastq/fastq_2.fq.gz > R2.cutadapt.stats
参数:-O MINLENGTH, --overlap=MINLENGTH
Require MINLENGTH overlap between read and adapter for an adapter to be found.
Default: 3
-r:表示将截掉的序列保存在R2.p2.fq文件中。
--info-file:输出log文件。
stat文件是记录adapter的详细过程,最好像我一样重定向到一个文件方便日后查看。默认屏幕输出。
cutadapt结果默认会trim掉adapter和adapter之后(3'的话是之前)的序列,所以,如果你只想切掉adapter,想保留adapter之前和之后的序列,那么就需要从log文件中提取出序列来了。
cutadapt结果log文件处理:
log文件格式是以下这样子的。
log文件
这里面存储着三种类型的格式。
可以将adapter两端的reads分别输出到p1,和p2文件中。
用法:脚本自己写的,很实用!
python deal_cutadapt_log.py xxx.cutadapt.log /result/dir/
就会得到
xxx.p1.fq 和 xxx.p2.fq
两个文件,代表着adapter之前序列和adapter之后序列。
该脚本还可以选择保留或者删除log文件中没有adapter 的序列。