tophat2+cufflinks转录组测序(2)—去接头>
在将原始数据和参考基因组数据处理好以后,就开始开始比对分析了
比对所用到的参考基因组的索引文件和基因组注释文件都存放在hg19文件夹
将sra文件解压至Fastq文件夹
主要步骤有下列几步
1用Ttimmomatic对fastq数据去接头
mkdir trim_out #创建一个存放用Trimmomatic去接头的输出文件夹
for i in Fastq/*fastq
do
echo $i
a=$(echo $i | cut -d "/" -f5 | cut -d "_" -f1)
java -jar ~/Biosofts/Trimmomatic-0.38/trimmomatic-0.38.jar SE -phred33 $i ~/trim_out/$a-clean.fastq ILLUMINACLIP:/home/qiujunhui/Biosofts/Trimmomatic-0.38/adapters/TruSeq2-SE.fa:2:30:10
done
2.序列比对用到tophat2软件,使用tophat软件的优点在于tophat2在将待测序列与参考基因组比对后,会直接生成bam文件,生成的bam文件直接可以给cufflinks构建转录本
mkdir tophat_out #创建一个用tophat比对的输出文件夹
for x in ~/trim_out/*clean.fastq
do
echo $x
b=$(echo $x | cut -d "/" -f5 | cut -d "-" -f1)
mkdir ~/tophat_out/$b
tophat -p 4 -o ~/tophat_out/$b ~/hg19/genome $x
done
-p 指定线程
-o 指定输出目录
hg19/genome为bowtie2官网上人类基因组的索引文件
2.利用cufflinks构建转录本
#mkdir cufflinks_out 创建一个用cufflinks构建转录本的输出文件夹
cd cufflinks_out
mkdir SRR957677
mkdir SRR957678
mkdir SRR957679
mkdir SRR957680
cd ..
cufflinks -g ~/hg19/gencode.v29lift37.annotation.gtf -o ~/cufflinks_out/SRR957677 -p 4 ~/tophat_out/SRR957677/accepted_hits.bam
cufflinks -g ~/hg19/gencode.v29lift37.annotation.gtf -o ~/cufflinks_out/SRR957678 -p 4 ~/tophat_out/SRR957678/accepted_hits.bam
cufflinks -g ~/hg19/gencode.v29lift37.annotation.gtf -o ~/cufflinks_out/SRR957679 -p 4 ~/tophat_out/SRR957679/accepted_hits.bam
cufflinks -g ~/hg19/gencode.v29lift37.annotation.gtf -o ~/cufflinks_out/SRR957680 -p 4 ~/tophat_out/SRR957680/accepted_hits.bam
3.利用cuffmerge合并转录组
为了比较不同样品的差异,需要将实验组和对照组的转录组合并起来,cuffmerge不仅能用来合并,两个或多个转录组,还能把注释过后的基因组信息也合并起来,从而找到新的基因可变剪切提高合并转录组的质量
mkdir cuffmerge_out #创建一个存放用cuffmerge合并转录本的输出文件夹
#把上一操作得到的transcripts.gtf的绝对路径写到一个文本文件里面
vi accepted.txt
~/home/qiujunhui/cufflinks_out/SRR957677/transcripts.gtf
~/home/qiujunhui/cufflinks_out/SRR957678/transcripts.gtf
~/home/qiujunhui/cufflinks_out/SRR957679/transcripts.gtf
~/home/qiujunhui/cufflinks_out/SRR957680/transcripts.gtf
#保存
cuffmerge -g ~/hg19/gencode.v29lift37.annotation.gtf -o ~/cuffmerge_out -p 4 accpeted.txt
4.利用cuffdiff进行基因表达差异分析
mkdir cuffdiff _out #创建一个存放用cuffdiff进行基因表达差异分析的输出文件夹
cuffdiff -o ~/cuffdiff_out -L lable1,lable2,lable3,lable4 -p 4 -u ~/cuffmerge_out/merged.gtf ~/tophat_out/SRR957677/accepted_hits.bam ~/tophat_out/SRR957677/accepted_hits.bam
~/tophat_out/SRR957677/accepted_hits.bam ~/tophat_out/SRR957677/accepted_hits.bam
merged.gtf为上一步用cuffmerge合并的转录组
-L 后面是bam文件的标签,有几个bam文件就取几个标签,我只有四个bam文件所以只有四个标签
cuffdiff输出文件比较多,它会对每个基因,每个转录片段,每个编码序列,每个基因的不同剪切体进行FPKM,个数和样本间差异进行分析,最后生成机组不同的文件,按照不同的需求,就可以往下分析了
cuffdiff计算每个样本中的转录本,初始转录本和基因FPKM
1.traisoforms.fpkm_tracking 转录组的FPKM
gens.fpkm_tracking 基因的fpkm
cds fpkm_tracking 编码序列的fpkm
tss_groups.fpkm_tracking 原始转录组的FPKM
2.Count tracking files
评估每个样本中来自每个 transcript, primary transcript,和 gene的fragment数目
3.Read group tracking
计算在每个repulate中每个transcript, primary transcript和gene的表达量和frage数目
4.Differential expression test
对于splicing transcript, primary transcripts, genes,
and coding sequences.样本之间的表达差异检验。