PART1 6mA-seq

2022-07-02  本文已影响0人  小qqq
第一次学习有不合适的地方欢迎小伙伴们留言!感谢简书提供的学习平台!

1.数据质控

由于使用的是cleandata,所以先对数据进行质控

#input
fastqc -t 8 -o /public/home/sss/ss/6mA/6mAinput-1_FKDL220023882-1a 6mAinput-1_FKDL220023882-1a_1.fq.gz \
fastqc -t 8 -o /public/home/sss/ss/6mA/6mAinput-1_FKDL220023882-1a 6mAinput-1_FKDL220023882-1a_2.fq.gz
#默认输出在当前路径下

-t 表示多少个线程
-o 输入路径,就是.gz文件所在的位置


image.png
将产生的htlm文件下载
htlm.png

由于universal adaptor 含量比较多,需要进一步去除adator含量

IP样本的质控同上

2.去除adaptor

使用的是trim_galore,trim_galore 是对fast qc 和cutadaptor的包装,适用于所有的高通量测序,包括RRBS,Nextera 和 small RNA 测序平台的双端和单端的测序数据,主要功能包括两步:1.去除低质量的碱基,然后去除3‘末端的adaptor,如果没有指定具体的adaptor,程序会自动检测前1 million 13bp的序列是否符合以下类型的adaptor:

1 Illumina: AGATCGGAAGAGC
2 Small RNA: TGGAATTCTCGG
3 Nextera: CTGTCTCTTATA

参数说明:

1 #–q | ––quality <INT>
除了去除接头,同时修剪3‘端低质量的碱基;默认的phred分数为20;对不同的样本处理方式不同;
RRBS样本:先修剪3‘末端低质量碱基,随后再去除接头;
其他类型样本:低质量碱基和接头一次性处理;
2#––phred33
适用于IlLumina 1.9+:指导cutadapt使用ASCII+33质量分数作为pared分数,默认使用。
3 #--phred64
适用于Illumina 1.5: 指导cutadapt使用ASCII+64质量分数作为pared分数
4 #––fastqc
当数据修剪完成以后以默认参数运行fastqc再次处理fastq文件
5#--stringency <INT>
接头序列最小配对碱基数:简单来说就是最多能允许末端残留多少个接头序列的碱基,默认值为极端值1;该参数与trimmomatic中ILLUMINACLIP <minAdapterLength>含义相同。
6#--paired
对于双端结果,一对reads中若一个read因为质量或其他原因被抛弃,则对应的另一个read也抛弃,但若使用--retain_unpaired选项可以保留

以自己测的数据为例进行 cut adaptor

trim_galore -q 20 --phred33 --stringency 3 --length 20 -e 0.1 --paired  ./6mAinput-1_FKDL220023882-1a_1.fq.gz ./6mAinput-1_FKDL220023882-1a_2.fq.gz -o ./
trim_galore -q 20 --phred33 --stringency 3 --length 20 -e 0.1 --paired ./6mAIP-1_FKDL220023881-1a_1.fq.gz ./6mAIP-1_FKDL220023881-1a_2.fq.gz -o ./

去除adaptor以后进行数据质控

fastqc -t 8 -o /public/home/sss/ss/6mA/6mAIP-1_FKDL220023881-1a 6mAIP-1_FKDL220023881-1a_1_val_1.fq.gz \
fastqc -t 8 -o /public/home/sss/ss/6mA/6mAIP-1_FKDL220023881-1a 6mAIP-1_FKDL220023881-1a_2_val_2.fq.gz

下载生成的htlm文件

image.png

adaptor基本已去除

参考:https://www.cnblogs.com/sqsgoodluck/p/15914395.html

上一篇 下一篇

猜你喜欢

热点阅读