转录组分析要提前了解的若干问题
1、什么是转录组测序?
转录组广义上指在某一生理条件下,细胞内所有转录组产物的集合,包括:mRNA、ncRNA、rRNA等;狭义上指所有mRNA的集合。
转录组测序的研究对象为特定细胞在某一功能状态下所能转录出来的所有RNA的总和,主要包括mRNA和ncRNA。
转录组具有时间特异性、组织特异性、空间特异性等特点。
2、无参转录组和有参转录组的区别?
如果所研究的物种有组装注释质量较好基因组序列,且和该基因组序列比对效率较高,那么可以采用有参转录组的分析策略,直接进行分析。反之,则需要按照无参转录组的分析策略进行转录本组装,构建unigene库,然后进行后续分析。
3、普通转录组测序适用于哪些情况?
普通转录组测序主要适用于两大类:一是不同的生长阶段或者发育过程;二是不同的环境、药物、病原菌等逆境胁迫处理。
4、转录组测序推荐的测序数据量?
转录组测序所需数据量与所研究物种的基因组大小有关,基因组越大,则所需数据量越大。按照我们的经验来说:
常规物种一般建议6G数据即可;
基因组较大的物种推荐8G以上数据,比如:小麦建议10G数据起,甘蔗、甘薯建议至少8G数据。
5、转录组测序的取样建议?
取样要遵守三个原则:代表性和一致性原则、迅速性原则、低温原则。具体可以参考小编之前发的一篇推文《高通量测序及蛋白组学相关样品准备须知》蓝字为链接可点击。
6、转录组测序必须做生物学重复么?需要几个重复?
生物学重复是生物实验所必须的,转录组测序也不例外,至少3 次生物学重复。
准备生物重复样品时,通过对实验的预先设计和控制,尽可能将与实验处理无关的背景条件控制在同一水平,减少批次效应对结果的影响。
7、转录组测序可以同时测到mRNA、lncRNA、micRNA以及circRNA么?
我们通常所讲的转录组测序只能测到mRNA。但是全转录组测序通过构建两个测序文库(一是小RNA测序文库、二是lncRNA测序文库)是可以测到以上4种RNA的。
8、有参转录组测序分析中,与参考基因组的比对效率多高才能够满足后续分析?
与参考基因组的比对效率与多个因素有关,包括基因组组装质量、测序质量、有无污染等;一般来说,与参考基因组的比对效率在70%以上时,该基因组可以满足后续的分析需求。当比对效率低于60%时,需要考虑换参考基因组或者按照无参转录组分析策略进行分析。
9、所研究物种有参考基因组时,必须按照有参的来分析么?
按照有参或者无参进行转录组分析,取决于基因组的质量、所研究物种与参考基因组的比对效率。具体如下:
若参考基因组质量较差,则可以选择按照无参转录组分析策略进行分析;
若所研究物种与参考基因组比对效率比较低,则需要按照无参转录组分析策略进行分析。
10、做完转录组之后一定要进行Q-PCR验证么?一般验证多少个差异基因合适?
目前来说,Q-PCR验证是转录组测序分析必不可少的补充验证实验,发文章必须。一般验证15-20个差异基因比较合适。
11、Q-PCR与转录组测序结果的吻合度一般多高是合适的?为什么会出现不吻合的现象?
Q-PCR与有参转录组分析结果的吻合度在80%以上;Q-PCR与无参转录组分析结果的吻合度在70%以上。
出现结果不吻合现象的原因如下:实验所用样本弄混;没有使用与转录组测序同一批的样本进行Q-PCR验证;挑选的基因表达量较低或差异不显著。
12、转录组测序的后续补充分析有哪些?
做完转录组测序可以考虑以下分析内容做为补充,用于提高文章档次和深度。
可变剪接的深入分析(对生信基础要求较高)
https://www.jianshu.com/p/759a5a714aa3
基因家族分析(基因家族分析发SCI-多、快、好、省!)蓝字为链接可点击
WGCNA分析(你距离SCI文章只差一个WGCNA分析)蓝字为链接可点击
其他分析(参考其他人的高分文章,整理自己的个性化分析思路)
13、有参转录组测序分析的结果文件中有全部基因的cds序列么?在哪个文件中?
一般来说结果文件中有全部基因的cds序列。有参转录组分析结果中的基因cds序列信息一般位于Gene_Func_Anno文件夹下面的NewGene中的All.longest_transcript.fa文件里。
14、转录组测序分析常用的数据库有哪些?重点关注哪些注释信息?
Nr:NCBI非冗余蛋白数据库,包含的信息很全面, 注释到的基因较多。
COG :中文释义即“同源蛋白簇”。COG 分为两类,一类是原核生物的,另一类是真核生物。原核生物的一般称为 COG 数据库;真核生物的一般称为 KOG 数据库。
SWISS-PROT:经过注释的蛋白质序列数据库,数据库中的蛋白质的功能经过了试验验证,注释是精确的;
TrEMBL:数据库全称“Translation of EMBL”,是从EMBL中的cDNA序列翻译得到的,其中TrEMBL收录的是未经人工注释的编码DNA序列翻译数据;
KEGG:翻译成中文是京都基因与基因组百科全书,是一个整合了基因组、化学和系统功能信息的数据库,旨在揭示生命现象的遗传与化学蓝图。它是由人工创建的一个知识库,KEGG数据库最优的地方在于拥有描绘已知通路的代谢通路图。另外KEGG中有一个“专有名词”KO(KEGG Orthology),它是蛋白质(酶)的一个分类体系,序列高度相似,并且在同一条通路上有相似功能的蛋白质被归为一组,然后打上KO(或K)标签,一般用字母K后面加5个数字表示。KEGG_ID 是pathway的ID,表示方法是2-4个字母,后面跟上5个数字;
GO(gene ontology):是基因本体联合会(Gene Onotology Consortium)所建立的数据库,旨在建立一个适用于各种物种的,对基因和蛋白质功能进行限定和描述的数据库。按照三大类别BP(生物学过程)、 MF((分子功能)、CC(细胞组分)对基因的产物-蛋白质进行了分类,并能随着研究不断深入而更新的语言词汇标准。在GO数据库中,本质上是一个有向无环图的数据结构,在三大类别之下,又有小的分类层级,一层一层的分类下去。对于某个具体的GO号来说,代表一组同源蛋白,拥有相似的结构和功能;
Pfam:是一个被广泛使用的蛋白家族数据库,它有两个数据库,高质量,手工确定的Pfam-A,自动注释的Pfam-B数据库。
15、差异分析的筛选标准默认是多少?是固定不变的么?
差异分析的筛选标准默认为:Fold Change≥2且FDR<0.01。筛选条件要灵活,要根据情况进行参数调整,数据是死的,人是活的,要灵活变通。
16、unigene和转录本的区别?
unigene是转录本的子集。首先通过triniy组装出来的视为转录本,然后挑选最长的一条转录本作为unigene。
17、差异基因太多,注释信息太杂乱,怎么挑选目标基因?
可以根据KEGG和GO富集分析结果,挑选富集程度较高的代谢通路和GO terms,进而查看相关的差异基因;
对不同的差异组合进行维恩图分析,挑选共有或者特有的差异基因作为后续的研究对象;
根据前人的文献报道,挑选相关差异基因,不要局限在自己研究的物种上。
18、为什么原核物种只能做有参转录组分析?
由于原核生物的基因组中存在大量基因重叠区域、操纵子及多顺反子,如果按照无参转录组分析策略进行组装的话,难度较大,组装结果存在较大风险。
19、差异基因数目多少比较合理?
不同的处理,不同的研究目标,差异基因的数目是不同的,从几十个到几千个都有可能。但是如果差异基因数目是个位数或者上万,那么就需要和分析人员沟通一下,查一查是否有问题。