HISAT2+STRINGTIE分析转录组数据

2021-01-20  本文已影响0人  candel

一、构建基因组索引

#! /bin/sh
hisat2-build ref.fa ref

二、序列比对,将clean data 比对到参考基因组。
创建files目录,files下创建samples.txt文件,将样本名称按行写在位于/files目录下的samples.txt文件中。

#! /bin/sh
#(将样本名称按行写在位于/files目录下的samples.txt文件中)
# run some hisat2 alignments

while read line
do
    reads1=${line}_1.fq.gz
    reads2=${line}_2.fq.gz
    hisat2 -p 16 --dta -x ../genome/ref -1 ~/data/cleandata/qingcai_zise/rna-seq/$reads1 -2 ~/data/cleandata/qingcai_zise/rna-seq/$reads2 -S ${line}.sam
    ~/usr/bin/samtools_1.9 sort -@ 16 -o ${line}.bam ${line}.sam
done   <../files/samples.txt

三、 组装转录本并定量表达基因

#! /bin/bash
while read line
do
    stringtie -p 16 -G ../files/gene.gff3 -o ${line}.gtf -l ${line} ../aligment/${line}.bam
done < ../files/samples.txt

四、专录本合并并比较
在files目录下新建mergelist.txt文件,文件写入上一步生成的每个gtf完整路径。

/sevzone/home/rna_seq/assemble/Greenvegetables_Z113-01-T01_good_p.gtf
/sevzone/home/rna_seq/assemble/Greenvegetables_Z113-01-T02_good_p.gtf
/sevzone/home/rna_seq/assemble/Greenvegetables_Z113-01-T03_good_p.gtf
/sevzone/home/rna_seq/assemble/Greenvegetables_Z113-01-T04_good_p.gtf
/sevzone/home/rna_seq/assemble/Greenvegetables_Z113-01-T05_good_p.gtf
/sevzone/home/rna_seq/assemble/Greenvegetables_Z113-01-T06_good_p.gtf

合并GTF

stringtie --merge -p 8 -G ../files/gene.gff3 -o stringtie_merged.gtf ../files/mergelist.txt

gffcompare -r ../files/gene.gff3 -G -o merged_stringtie_merged.gtf stringtie_merged.gtf

五、重新组装转录本并估算基因表达丰度,并为ballgown创建读入文件
新建目录expression,基于新合并的GTF计算表达量。

#! /bin/bash
while read line
do
    stringtie -e -B -p 8 -G ../assemble/merged_stringtie_merged.gtf.annotated.gtf -o ./${line}/${line}.gtf ../aligment/${line}.bam

done < ../files/samples.txt
上一篇下一篇

猜你喜欢

热点阅读