转录组

tophat2+cufflinks转录组测序(2)—去接头>

2018-11-08  本文已影响15人  邱俊辉

在将原始数据和参考基因组数据处理好以后,就开始开始比对分析了
比对所用到的参考基因组的索引文件和基因组注释文件都存放在hg19文件夹
将sra文件解压至Fastq文件夹
主要步骤有下列几步
1用Ttimmomatic对fastq数据去接头

mkdir trim_out #创建一个存放用Trimmomatic去接头的输出文件夹
for i in Fastq/*fastq
do
        echo $i
        a=$(echo $i | cut -d "/" -f5 | cut -d "_" -f1)
        java -jar ~/Biosofts/Trimmomatic-0.38/trimmomatic-0.38.jar SE -phred33 $i ~/trim_out/$a-clean.fastq ILLUMINACLIP:/home/qiujunhui/Biosofts/Trimmomatic-0.38/adapters/TruSeq2-SE.fa:2:30:10
done

2.序列比对用到tophat2软件,使用tophat软件的优点在于tophat2在将待测序列与参考基因组比对后,会直接生成bam文件,生成的bam文件直接可以给cufflinks构建转录本

mkdir tophat_out #创建一个用tophat比对的输出文件夹
for x in ~/trim_out/*clean.fastq
do
          echo $x
          b=$(echo $x | cut -d "/" -f5 | cut -d "-" -f1)
          mkdir ~/tophat_out/$b
          tophat -p 4 -o ~/tophat_out/$b ~/hg19/genome $x
done            

-p 指定线程
-o 指定输出目录
hg19/genome为bowtie2官网上人类基因组的索引文件

2.利用cufflinks构建转录本

#mkdir cufflinks_out 创建一个用cufflinks构建转录本的输出文件夹
cd cufflinks_out
mkdir SRR957677
mkdir SRR957678
mkdir SRR957679
mkdir SRR957680
cd ..
cufflinks -g ~/hg19/gencode.v29lift37.annotation.gtf -o ~/cufflinks_out/SRR957677 -p 4 ~/tophat_out/SRR957677/accepted_hits.bam
cufflinks -g ~/hg19/gencode.v29lift37.annotation.gtf -o ~/cufflinks_out/SRR957678 -p 4 ~/tophat_out/SRR957678/accepted_hits.bam
 cufflinks -g ~/hg19/gencode.v29lift37.annotation.gtf -o ~/cufflinks_out/SRR957679 -p 4 ~/tophat_out/SRR957679/accepted_hits.bam
cufflinks -g ~/hg19/gencode.v29lift37.annotation.gtf -o ~/cufflinks_out/SRR957680 -p 4 ~/tophat_out/SRR957680/accepted_hits.bam

3.利用cuffmerge合并转录组
为了比较不同样品的差异,需要将实验组和对照组的转录组合并起来,cuffmerge不仅能用来合并,两个或多个转录组,还能把注释过后的基因组信息也合并起来,从而找到新的基因可变剪切提高合并转录组的质量

mkdir cuffmerge_out #创建一个存放用cuffmerge合并转录本的输出文件夹
#把上一操作得到的transcripts.gtf的绝对路径写到一个文本文件里面
vi accepted.txt
~/home/qiujunhui/cufflinks_out/SRR957677/transcripts.gtf
~/home/qiujunhui/cufflinks_out/SRR957678/transcripts.gtf
~/home/qiujunhui/cufflinks_out/SRR957679/transcripts.gtf
~/home/qiujunhui/cufflinks_out/SRR957680/transcripts.gtf
#保存
cuffmerge -g ~/hg19/gencode.v29lift37.annotation.gtf -o ~/cuffmerge_out -p 4 accpeted.txt

4.利用cuffdiff进行基因表达差异分析

mkdir cuffdiff _out #创建一个存放用cuffdiff进行基因表达差异分析的输出文件夹
cuffdiff -o ~/cuffdiff_out -L lable1,lable2,lable3,lable4 -p 4 -u ~/cuffmerge_out/merged.gtf ~/tophat_out/SRR957677/accepted_hits.bam  ~/tophat_out/SRR957677/accepted_hits.bam 
~/tophat_out/SRR957677/accepted_hits.bam ~/tophat_out/SRR957677/accepted_hits.bam

merged.gtf为上一步用cuffmerge合并的转录组
-L 后面是bam文件的标签,有几个bam文件就取几个标签,我只有四个bam文件所以只有四个标签

cuffdiff输出文件比较多,它会对每个基因,每个转录片段,每个编码序列,每个基因的不同剪切体进行FPKM,个数和样本间差异进行分析,最后生成机组不同的文件,按照不同的需求,就可以往下分析了
cuffdiff计算每个样本中的转录本,初始转录本和基因FPKM
1.traisoforms.fpkm_tracking 转录组的FPKM

gens.fpkm_tracking 基因的fpkm

cds fpkm_tracking 编码序列的fpkm

tss_groups.fpkm_tracking 原始转录组的FPKM

2.Count tracking files

评估每个样本中来自每个 transcript, primary transcript,和 gene的fragment数目

3.Read group tracking

计算在每个repulate中每个transcript, primary transcript和gene的表达量和frage数目

4.Differential expression test

对于splicing transcript, primary transcripts, genes,

and coding sequences.样本之间的表达差异检验。

上一篇 下一篇

猜你喜欢

热点阅读