BBQ(生物信息基础问题23): 转录组VS基因组比对
之前的笔记中,我们知道了一些基本的生信的基本知识。从数据的简单质控,到测序数据的mapping。我们今天主要来关注一下转录组的相关介绍。转录组和基因组的比较和基因组的比较有什么区别呢?
--------------------------------------------分割线------------------------------------------------------
首先,我们来看一下一个成熟的RNA生成的过程。在全基因组上有外显子和内含子。而在mRNA的生成过程中。会把内含子去掉,连接外显子。
mRNA生成的过程
此外,我们都知道mRNA的生成还存在可变剪接。
RNA生成的可变剪接
一般来说,DNA的mapping比较容易,因为DNA在基因上是连续的,直接回贴到基因组就可以找到相应的定位。就比如我们常用的Whole Genome Sequence(WGS)即全基因组测序;或者是我们所说的ChIP-Seq即染色体免疫共沉淀测序都是直接对DNA进行建库测序,其测序结果都是FASTQ文件,直接用bowtie2,bwa比对到基因组就可以拿到标准的SAM文件。
在RNA-seq的过程中,我们提取出的是RNA,但是因为RNA不稳定,所以我们会反转成cDNA,然后建库进行测序,然后mapping到全基因组上。这个时候问题就出现了:如何解决外显子和内含子的问题,如何解决可变剪接的问题?
-------------------------------------------BBQ分割线---------------------------------------------------
- RNA比对的常用软件
目前大家最常用的转录组比对软件有下面几个:
tophat2,应用最广泛的比对软件,但是速度很慢,已经基本被淘汰了,大约需要4~5G内存就能运行;
hisat2,tophat2的原班人马搞得新一代转录组比对软件,比对速度大大提高,我强烈推荐,大约需要4~5G内存就能运行;
STAR,非常适合于大量数据的并行计算,速度非常快,对于同时有参考基因组和参考转录组的物种,比对的准确率很高,不过index很大,至少需要30G以上内存才能运行。
- 提出问题
问题1:如果你有一套标准的polyA捕获得到的RNA-Seq测序数据,对reads进行了前处理工作与质量控制工作,但是你的比对策略为:先尝试mapping,把能mapping到基因组上的reads都先mapping;然后把不能进行mapping的reads进行一定规则的拆分,再进行第二轮mapping,从而解决跨intron区域的问题(以上为tophat的mapping策略)。请问,这样mapping的最大问题是什么?(提示,需要知道一些假基因的概念!)
⾸先解释⼀下假基因,假基因(Pseudogenes)是指是⼀类染⾊体上的基因⽚段。假基因的序列通常与对应的基因相似,但⾄少是丧失了 ⼀部分功能,基因不能表达或其编码的蛋⽩质没有功能;这种基因在基因组上的分布⾮常普遍,那么在假基因普遍存在的情况下上述⽐对策略就会受到假基因的⼲扰,会有很多基因⽐对到假基因上。
问题2:在human中,是不是所有的蛋白基因(protein coding gene)都含有intron?
并不是,SRY基因是⼈体Y染⾊体上的⼀段基因,该基因是决定男性睾丸发育的主要基因,存在于Y染⾊体的短臂末端上,该基因只有⼀个exon.
问题3:在human中,是不是所有的蛋白基因的成熟mRNA都有polyA尾巴?
不是,组蛋白的mRNA没有polyA的尾巴。
Rerference:
1:生物信息学100个基础问题 —— 第23题 转录组的比对与基因组的比对有何不同?
2:pseudogenes - Pseudogene - Wikipedia