Day 1 认识转录组测序
1.转录组测序是什么?
遗传信息储存在细胞核DNA,不考虑体系突变的话,理论上讲一个生命体的每个细胞内的DNA是完全一致的,正是因为不同基因的选择性表达才构成了各种各样功能不同的组织和器官。看一下中心法则(实线为主要途径):
中心法则(来自百度百科)
其中的RNA即为转录组(Transcriptome),它指代参与基因转录途径的RNA组合,即mRNA、rRNA、tRNA、以及其他非编码RNA。其中tRNA扮演氨基酸搬运工的角色,rRNA作为核糖体的重要组成部分参与蛋白质的加工,mRNA将DNA的遗传信息选择性表达,从细胞核转移到细胞质,作为编码蛋白质的模版。其他一些非编码RNA(如miRNA,microRNA,lncRNA等)被认为在基因表达调控中参与作用。mRNA因其信息传递作用常称为信使RNA,不同样本中mRNA表达量的差异可以侧面反应转录本所对应基因的(选择性)表达强度。因此,mRNA携带的信息价值很高,如何挖掘潜藏在mRNA中的基因表达信息?测序便是其中的一种有效方法。(在做转录水平的研究中,因为mRNA的性价比最高,所以大家都在争先恐后的做mRNA的测序~)
转录组
2. mRNA测序是如何实现的?
- 提取待测样本总RNA
- 提取总RNA中的mRNA
- mRNA反转录获得DNA
- 进行DNA测序
二代测序还是以小片段DNA文库为主,所以反转录得到的DNA通常会打断成200bp左右的片段,然后两端加上文库接头后上机测序。我们通常使用PE150的测序策略,所以最终从测序仪中输出的数据都是150bp长度的DNA序列。 - 测序数据分析
2.1 提取mRNA的必要性和常用方法
实际上,mRNA并不是细胞中含量最高的一种RNA。参考生信星球的图片:
RNA的比例
如果选择了全部的RNA进行测序,那么,测序结果大部分都是tRNA和rRNA,这会造成很大的资源浪费。实际上,测序公司在进行mRNA测序时,大多会利用真核生物成熟mRNA具有polyA尾的特点,通过使用oligo dT(实际上就是携带有polyT探针的磁珠)富集,定向得将总RNA中的mRNA抓取出来,然后反转录为cDNA,构建DNA的测序文库上机测序。
小插曲:
原核生物的mRNA没有polyA尾,因此它的mRNA测序就不适合👆的方法啦,一般都会去除比例较大的rRNA再测序,方法有很多,常见的是使用rRNA探针(实际上就是特异性的rRNA反向序列)将rRNA特异性富集后去除。对于质量比较差的真核生物的mRNA测序(例如FFPE样本,样本制作的过程会损伤mRNA的PolyA尾,不适合mRNA富集的方法进行测序),如果想要获得好的数据,也可以借用这套去除rRNA的建库测序方法,最终的数据除mRNA外,还有lnRNA,miRNA,microRNA等等,这就需要在生信分析的步骤把这些“杂质”去除掉啦~
2.2 测序数据分析
根据分析物种的不同,处理的方法也不同(主要是看分析的物种是否有得参考),因为我们首先需要把测序得到碱基序列(通常成为reads)比对到参考序列上,根据比对到参考序列上的reads数和对应基因exon长度获得不同基因的表达丰度。
- 基于参考基因组比对
假如该物种之前有进行了全基因组测序,那么便可以使用“参考基因组比对”的方法。考虑基因组包含了基因间区、内含子区,为了使我们的mRNA测序数据可以有效比对到参考基因组上,所以就要求比对软件具有“跨越式拼接”特性,比如STAR、Hisat2 - 基于参考转录组比对
假如该物种还没有进行全基因组测序,好在有其他研究者曾经对该物种进行了转录组测序,我们便可以拿他们的转录组测序数据作为参考序列。使用“参考转录组比对”时就不存在跨越式拼接的问题了(因为参考转录组里都没有内含子啊),一般使用软件Bowtie、BWA -
无参转录组分析
假如研究物种既没有基因组数据,也没有任何转录组数据(恭喜这类研究者走在了该物种研究的前沿),也就是说我们没有任何参考序列去比对。这时可以通过使用Trinity,利用测序reads从头组装拼接出参考unigene,再将每个样本的reads比对到参考unigene上,计算表达量
引用生信星球的图片可能更容易理解:
3种转录组的分析