可变剪切|rmats
可变剪切
可变剪切(或选择性剪切)是一个过程,即主要基因或者mRNA前体转录所产生的RNA的外显子以多种方式通过RNA剪切进行重连。由此产生的不同的mRNA可能被翻译成不同的蛋白质构体,因此,一个基因可能编码多种蛋白质。
rmats
下面是小编使用rmats进行可变剪切的步骤,大家感兴趣可以瞅瞅~
1.下载好对应参考序列的gff文件以及fasta文件
可用gffread进行转换
gffread *.gff -T -o *.gtf
2.对参考序列建立索引并生成bam文件(可选择STAR或HISAT2)
STAR
STAR建立索引--limitGenomeGenerateRAM可根据报错结果进行选择
STAR --runThreadN 40 --runMode genomeGenerate --genomeDir build --genomeFastaFiles ref.fasta --sjdbGTFfile genome.gtf --sjdbOverhang 100 --limitGenomeGenerateRAM 170000000000
生成bam文件
STAR --runThreadN 30 --outSAMtype BAM SortedByCoordinate --genomeDir index --readFilesIn r1.fq.gz r2.fq.gz --readFilesCommand zcat --outFileNamePrefix 200
HISAT2
建立索引
hisat2-build -f genome.fasta hisat -p 20
生成sam文件
hisat2 -x hisat -1 1.fq.gz -2 2.fq.gz -S 21.sam
Sam文件转为bam文件
samtools sort -@ 8 -o A.bam A.sam
建立索引
samtools index A.bam
3、Rmats的使用
image imagermats.py --b1 b1.txt --b2 b2.txt --gtf genome.gtf --nthread 40 --od test -t paired --readLength 150 --cstat 0.000
值得注意的是b1 和b2文件需要转为Linux格式不然会报错,这个软件局限在于只有两个分组,所以多个分组比对需要多运行几次.
结果会有五种文件:
①AS_Event.MATS.JC.txt 常用结果文件,统计了跨剪切位点的reads;
②AS_Event.MATS.JCEC.txt 除了统计了跨剪切位点的reads还统计了比对到可变外显子上的reads;
③fromGTF.AS_Event.txt 从GTF和RNA衍生出的所有已鉴定的替代剪接(AS)事件;
④JC.raw.input.AS_Event.txt 事件计数包括仅跨越由rmats定义的结点的读取(结点计数);
⑤JCEC.raw.input.AS_Event.txt 事件计数包括跨越由rmats定义的连接的读数(结点计数)和不跨越外显子边界的读数(外显子计数).
4.用rmats2sashimplot绘制
需要将rmats生成文件中的chr那一行给统一,不然和bam文件对应不上,统一成数字或chr+数字,bam文件最好提前建立索引,不然运行过程中又要建立一遍,浪费时间!
rmats2sashimiplot --b1 20.bam,21.bam,22.bam --b2 23.bam,25.bam,27.bam -t SE -e 2.txt --l1 A --l2 B --exon_s 1 --intron_s 5 -o plota
-t有五个选项SE RI A3SS A5SS MXE,分别是生成文件中的五种文件
-e即是对应-t所选参数的文件
--l1 --l2 比对的分组名称
-o输出文件
绘制的图如下:
image
END