《生物软件及应用》课程笔记

tophat2+cufflinks转录组测序实例(3)——利用t

2018-10-16  本文已影响73人  邱俊辉

在将原始数据和参考基因组数据处理好以后,就开始开始比对分析了

1.序列比对

序列比对用到tophat2软件,使用tophat软件的优点在于tophat2在将待测序列与参考基因组比对后,会直接生成bam文件,生成的bam文件直接可以给cufflinks构建转录本,从而避免了使用其他软件时生成的sam文件要转化成bam文件才能作为cufflinks的输入文件
代码如下

tophat -p 20 -o tophat_out GCA_000009725.1_ASM972v1_genomic SRR5399538_1.fastq

-p 指定线程

-o 指定输出目录

GCA_000009725.1_ASM972v1_genomic为利用bowtie2建立的索引文件

SRR5399538_1.fastq 为利用SAM toolkit将原始数据sra文件解压后的fastq文件

将待测基因分别于参考基因比对得到输出文件如图 14463769-ae06fafab69ce1f0.png

accepted_hits.bam reads排序的结果以bam格式生成文件,是后面cufflinks软件的输入文件

junctions.bed deletions.bed insertions.bed 这三个分别是:

tophat处理的junctions,删除和插入的结果

unmapped.bam 没有map上的序列

align_summary.txt 可以查看map上的reads所占的比例

2.利用cufflinks构建转录本

比对完后,cufflinks就可以把比对到基因组的序列组装成一个转录组了,组装好的转录组包含了可能的剪切信息和所有转录的表达量Counts,从而计算出FPKM值

代码如下

cufflinks -g GCA_000009725.1_ASM972v1_genomic.gtf -o cufflinks_out -p 8 accepted_hits.bam

-g 后面的为参考基因组的注释文件

-o 指定输出目录

-p 指定线程

accepted_hits.bam 为用tophat2比对后的bam文件

然后输出的cufflinks_out里面就会有四个文件如图 image

下一步要用到的就是transcripts.gtf文件,这个文件就是样品的转录组

3.利用cuffmerge合并转录组

为了比较不同样品的差异,需要将实验组和对照组的转录组合并起来,cuffmerge不仅能用来合并,两个或多个转录组,还能把注释过后的基因组信息也合并起来,从而找到新的基因可变剪切提高合并转录组的质量
代码如下

cuffmerge -g GCA_000009725.1_ASM972v1_genomic.gtf -o merge_asm -p 8 accpted.txt

-g 后面为参考基因组的注释文件

-o 指定输出目录

accpted.txt 为所有要合并的转录组的绝对路径
例如

image

转录组拼接完成后会生成一个merged.gtf,这个文件就是合并好的转录组

4.利用cuffdiff进行基因表达差异分析

cuffdiff -o cuffdiff_out -L lable1,lable2,lable3,lable4 -p 10 -u merged_asm/merged.gtf tophat_out/SRR5399538/accepted_hits.bam  tophat_out/SRR5399539/accepted_hits.bam  tophat_out/SRR5399540/accepted_hits.bam  tophat_out/SRR5399541/accepted_hits.bam 

-o 指定输出目录

-L 后面是bam文件的标签,有几个bam文件就取几个标签,由于我只有四个bam文件所以只有四个标签

-p 指定线程

-u 后面跟利用cuffmerge合并后的转录本

后面的是bam文件所在的绝对路径

cuffdiff输出文件比较多,它会对每个基因,每个转录片段,每个编码序列,每个基因的不同剪切体进行FPKM,个数和样本间差异进行分析,最后生成机组不同的文件,按照不同的需求,就可以往下分析了
cuffdiff输出文件比较多,它会对每个基因,每个转录片段,每个编码序列,每个基因的不同剪切体进行FPKM,个数和样本间差异进行分析,最后生成机组不同的文件,按照不同的需求,就可以往下分析了

cuffdiff输出如图


14463769-f3aa5a8e8efacd57.png1.png

FPKM tracking files cuffdiff计算每个样本中的转录本,初始转录本和基因FPKM

isoforms.fpkm_tracking 转录组的FPKM

gens.fpkm_tracking 基因的fpkm

cds fpkm_tracking 编码序列的fpkm

tss_groups.fpkm_tracking 原始转录组的FPKM

2.Count tracking files

评估每个样本中来自每个 transcript, primary transcript,和 gene的fragment数目

3.Read group tracking

计算在每个repulate中每个transcript, primary transcript和gene的表达量和frage数目

4.Differential expression test

对于splicing transcript, primary transcripts, genes,

and coding sequences.样本之间的表达差异检验。

上一篇 下一篇

猜你喜欢

热点阅读