谈谈转录组测序基础知识及常见问题
转录组学(Transcriptomics),是一门在真整体水平上研究细胞中基因转录的情况及转录调控规律的学科,从RNA水平研究基因的表达情况。转录组测序是通过二代测序平台快速全面地获得某一物种特定细胞或组织在某一状态下的几乎所有的转录本及基因序列,可以用来研究基因表达量、基因功能、结构、可变剪接和预测新的转录本等等。转录组(transcriptome),是指特定生长阶段某组织或细胞内所有转录产物的集合,狭义上指所有mRNA的集合。
转录组测序类型
1. 根据RNA种类
可以分为mRNA测序,SmallRNA测序,LncRNA测序、CircRNA测序、全转录组测序等
2. 根据物种特点
比如真核生物或者原核生物,是否有参考基因组,测序平台的不同,分为真核有参和无参转录组测序,原核转录组测序,全长转录组测序等
3. 根据相互关系
分为互作转录组,比较转录组等等;
此外,基因组甲基化会影响到基因的转录调控,也属于转录调控测序范畴;还有用于研究转录因子与DNA的交互作用或组蛋白修饰在基因组上的分布的ChIP-Seq,研究RNA与蛋白互作关系的RIP-Seq,以及研究RNA甲基化的MeRIP-Seq等。
应用领域
图片.png术语概念
基本的术语介绍:
- 转录本:是由一条基因通过转录形成的一种或多种可供编码蛋白质的成熟的mRNA。
- PE 150/SE 150:PE(Pair end)为双端测序的意思,测序文库中的一条序列从两端开始读取,得到read 1与read 2,即通常所说的R1与R2。SE(Single end)为单端测序的意思,即一条序列从一端读取。这里的150为150bp的意思,即读取150bp长度的测序模式。
- Read:测序得到的每一条序列称为一个 Read。
- Raw Data/ Raw Reads:测序下得到的原始图像数据经过base calling转化而来的机的原始数据。
- Clean Data / Clean Reads:去除接头和低质量 Reads 后的数据,后续分析均基于Clean Data。统计指标为Q20/Q30的值,一般平均质量分数< Q20,
- 接头/ Adapter:接头是测序时在序列两端分别加上的一段人工序列,接头上含有与测序引物互补结合的序列,通过和测序引物结合来对目的片段进行测序。当加上接头后的序列片段比实际测序读长短时, 3’端会测到接头序列,接头序列在分析之前需要去除掉。
- RPKM:Reads Per Kilobase of exon modelper Million mapped reads (每千个碱基的转录每百万映射读取的reads),主要用来对单端测序(single-end RNA-seq)进行定量的方法。
- FPKM:Fragments Per Kilobase of exon model per Million mapped fragments(每千个碱基的转录每百万映射读取的fragments),主要是针对pair-end测序表达量进行计算(公式算法基本与上述RPKM一致,两种都是RNAseq中常见的标准化方法,除此还有其他标准化方法后续会再单独介绍)。
- 模糊碱基/ N:测序中不能确定的碱基,以N表示。一条序列中 N 越多说明该序列质量越低,一般该种序列需要剔除掉。
- Read count:比对到一个基因上的 Reads 数目。
- P value:显著性,统计学根据显著性检验方法所得到的P 值,一般以P < 0.05 为显著, P <0.01 为非常显著,其含义是样本间的差异由抽样误差所致的概率小于0.05 或0.01。
- 差异倍数(Fold change):fold change翻译过来就是倍数变化,假设A基因表达值为1,B表达值为3,那么B的表达就是A的3倍。一般我们都用count、TPM或FPKM来衡量基因表达水平,所以基因表达值肯定是非负数,那么fold change的取值就是(0, +∞)。
- log2 Fold Change:同一基因在两个样品中的表达量之商取2的对数,即log2(sampleA/sampleB)。
注意:
为什么我们经常看到差异基因里负数代表下调、正数代表上调?因为我们用了log2 fold change。当expr(A) < expr(B)时,B对A的fold change就大于1,log2 fold change就大于0(见下图),B相对A就是上调;当expr(A) > expr(B)时,B对A的fold change就小于1,log2 fold change就小于0。通常为了防止取log2时产生NA,我们会给表达值加1(或者一个极小的数),也就是log2(B+1) - log2(A+1).
为什么不直接用表达之差,差直接有正负啊?假设A表达为1,B表达为8,C表达为64;直接用差B相对A就上调了7,C就相对B上调了56;用log2 fold change,B相对A就上调了3,C相对B也只上调了3. 通过测序观察我们发现,不同基因在细胞里的表达差异非常巨大,所以直接用差显然不合适,用log2 fold change更能表示相对的变化趋势,但是呢虽然大家都在用log2 fold change,但显然也是有缺点,这里给大家推荐个链接看下,作者解释的很详细~
- 另外我们也要具备基本分子生物学常识如转录、翻译的过程(中心法则),以及何为外显子,内含子,前体RNA,CDS,ORF这些概念,这些课本或网上都有介绍,不再过多赘述。
中心法则
图片.png前体RNA
关系:
图片.png流程
测序流程
- 样品RNA准备
- 测序文库构建
- DNA成簇(Cluster)扩增
- 高通量测序(Illumina)
- 数据分析
链特异性建库(了解)
目前构建链特异性文库的方法有多种,其中用的最普遍的是dUTP方法,跟普通建库方式相比,链特异性建库会在第二链 cDNA 合成时,用dUTP代替dTTP,加接头后用UDGase处理,降解掉有U的第二条cDNA,这样使得测序后的数据可以确定链的方向性,从而可以判断转录本是来自正义还是反义DNA链。与普通转录组测序相比,它能更准确地统计转录本的数量和确定基因的结构。推荐个帖子感兴趣的可以学习一下该建库方式的原理
下面通过这张建库示意图来看看普通RNA-Seq建库和链特异性建库的差异在什么地方
图片.png
数据分析流程
图片.png数据量大小
转录调控测序所需的数据量随项目类型不同而有所差异,数据量还与基因组大小、复杂度有关目前,为保证数据分析结果的可靠性和准确性,对于Illumina平台、PacBio平台:
真核转录组测序推荐采用6Gb 数据量进行后续分析,如果想检测到更低丰度的转录本,推荐采用8-10Gb数据量;
原核生物转录组,推荐采用4Gb数据量进行后续分析;
关注点
转录组的分析大致有以下几种情况:
- 同一物种在发育过程中的各时间节点的基因表达特点及存在的差异;
- 不同品系之间存在的差异表达基因;
- 不同的外界条件处理,如细菌、真菌、病毒、光照、紫外、干旱、高温、高盐胁迫,对基因表达的影响;
- 同一个体,不同组织之间的基因表达差异。
其他常见问题
生物学重复问题
生物学差异是基因自身表达的特性,与检测技术的选择以及数据处理的方式无关,如果没有生物学重复,或者生物学重复的数量不够,就不能得到有统计意义的实验结果。获得的差异表达基因很可能仅仅是少数个体差异的表现,并不能反映疾病或者某种特定生理状态的群体本质特征,并且有些审稿人会很在意生物学重复这个问题。
- 对于动植物样品,建议5个以上生物学重复,对生物学样品之间做相关性检验,提高实验结果的可信度。
- 对于细胞样品,生物学重复之间的差异性相对较小,建议3个以上生物学重复。
- 对于临床样品,由于供试者的基因型、生活方式、生活环境、年龄、性别可能存在差异,需要更多的生物学重复,一般要求10个生物学重复以上。
对于有无生物学重复后续计算差异基因时候算法也是不同的,目前主流差异分析软件DEseq2,limma,edgeR等基本都是针对有重复的转录组数据。至于没有重复的转录组数据,edgeR包中其实也有一种方法去计算,或者我们可以简单算两组的fold change然后根据阈值去筛选,另外同济大学之前也发布过一款软件GFOLD软件可以针对无重复数据计算(后续再说)。
差异倍数很大但P值>0.05不显著
对于差异倍数较大,但P值也较大,差异不显著的原因,可能有两个:
- 生物学重复不好,即生物学个体之间差异比较大,从统计学角度讲,就是同一个基因在组内的差异较大,误差线比较大,这样往往差异不显著。比如,某个基因在A组的三个生物学重复的表达量分别为100、200、300,在另一组中为110、150、30,虽然平均值差异倍数大于2,但因为组内重复不好,可能会导致无差异;而另外一个基因,在一组中为100、110、120,另一组为45、50、55,可能就是显著差异的。
- BaseMean值比较低,即基因的丰度比较低,比如某个基因,在A组中的表达量均值为16,在B中的平均表达量为2,虽然差了8倍,但由于丰度低,可信度就低,很有可能也会判定为无差异。
解决方法:
- 对于第一种情况,尽量控制单一变量,比如取同一性别,同一亲本,同一发育时期的小鼠,并增加生物学重复;
- 对于第二种情况,建议增加数据量。
差异基因数目过多或者过少
通常差异基因的鉴定标准为|log2 Fold Change|>1,即差异倍数在两倍以上,以及 P value<0.05。当获得的差异基因数目较多,造成分析困难,想挖掘差异更显著的差异基因时,可以将我们的阈值调整的更加严格,例如 |log2 Fold Change|>2,P value < 0.01等;当我们获得的差异基因较少时,我们可适当放宽鉴定阈值,例如 Fold Change > 3,但是P值需小于0.05才有显著意义。
为什么不同基因ID有着相同的蛋白注释?且为什么有相同蛋白注释信息的基因有的上调表达有的下调表达?
这是在分析结果中比较多见的现象,主要原因有两个:
- 多因一能:不同的基因通过注释具有相同的功能,而不同的基因其差异情况并不一样;
- 许多酶是复合物:组成酶的复合物包含了一个家族的多个基因和不同的调控因子,它们之间的调控机制尚不清楚,反映在图上会有部分上调,部分下调。
如何选取qPCR定量验证基因
- 根据GO或者是KEGG富集结果,或者是科研人员关注的基因,选取有代表性的进行qRT-PCR验证。
- 根据FPKM值,选择FPKM值差异倍数大,同时P值小的基因进行qRT-PCR验证。
qPCR结果和转录组测序结果不一致
RNA测序后,往往需要通过qPCR来进行验证。由于这两种实验的目的都是在检测基因的相对表达量。用qPCR验证的目的,是为了检测转录组测序结果的准确性。我们要求转录组和qPCR的结果趋势一样,比如转录组中显著上调,qPCR中也是显著上调。一般推荐先尽量多做几个,拿20-40个基因进行qPCR验证,因为不一定每个基因都会符合,尽管最后有几个不符合转录组的结果,我们舍去也无所谓,注意选取的基因尽量表达量不要太低,如果太低,无论转录组还是qPCR的准确性都会有所下降。
qPCR结果和转录组测序结果不一致,要考虑以下几个问题:
- 用于做转录组的样品和做qPCR的样品是同一个样品吗?不同生物学个体,虽然同样的处理,但个体差异也会导致不同。
- 样品在-80℃冰箱保存的时间或在液氮中保存的时间一样吗?且保存方式是否一样?即使同一个样品,保存时间与保存方式差异较大,也会有影响。
- 样品之间是否弄反?例如对照与处理之间,以及不同处理之间的样品是否出现弄乱的可能。
- 是否尝试过相同条件处理?不同批次的qPCR的测序?即使是相同处理,不同批次的qPCR结果也很可能不同,还有可能是由于生物个体之间本身的差异;
- 所选的基因是否丰度很低?如果丰度偏低,转录组测序和qPCR测序的结果都会受到影响。
- qPCR操作是否规范。定量实验对实验人员的操作,试剂的质量,实验环境都有着严格的要求。还有可能发生同一人员操作,得到两次的定量结果互相不一致的情况。
- 引物设计是否合理。在RNA-Seq中大多数基因会包含不止一个转录本,甚至有一些特别复杂的转录本形式,如果设计引物不合理就会使qPCR结果不准,还可能会有假基因的干扰。所以,qPCR的引物尽可能全都设计在基因的转录本共有外显子上,别是某些特定转录本的;引物设计好以后可以到NCBI做Primer Blast,保证引物不会Blast到一些基因组上的假基因上,避免假基因表达的干扰。
- 两种技术本身的差异。转录组测序与定量实验,都是检测基因表达情况的有效手段,但是两种技术在原理与方法上是不一样的,本身会存在一定概率结果不一致的可能。转录组测序一般是对基因进行定量,即所有来源于该基因的转录本的reads均归入该基因,而我们qPCR的设计的引物扩增片段有可能不能代表所有的转录本
好了,我们先说这么多,内容参考自《转录组学与多组学整合研究指南》,内容比较丰富,适合新手入门了解。电子书可搜索关注本人公众号BioparaMeta 回复 ‘干货’ 中(转录组链接)获取,除转录组也有宏基因组,单细胞转录组及编程资料可以获取,欢迎关注~~
图片.png