基因预测及注释原理
基因预测方法(一)
基因预测方法(二)
基因识别需要解决两大问题:预测出编码蛋白质的区域,并找出基因的各个功能位点
主要经历了四个阶段:
- 第一阶段主要是致力于发现基因组DNA中编码区域的位置
- 它们的缺点是不能准确预测外显子的 位置
- 第二阶段结合了剪切信号和编码区识别,并据此预测可能的外显子
- 但没有进一步将预测到的外显子拼接。
- 第三阶段的程序开始试图预测完整的基因结构
- 第四阶段主要致力于提高预测准确率及适用范围
基因识别方法大体上可以分为两大类。一类是基于序列相似性搜索的,另一类基于基因结构、各种信号等内在信息。
- 序列相似性搜索
- 就是经过对比,寻找已知EST(expressed sequence tag,表达序列标签)、cDNA、蛋白质或其它基因组与输入的基因组在序列上的相似性
- 使用基因组序列中同源蛋白与翻译后的ORF的全局比对进行基因预测
- 这方法很难找新的基因
- 类基于基因结构、各种信号等内在信息
- "信号”是指一些较短的功能序列( 如剪切位点,起始密码子和终止密码子等)。“内容”指的是 物种特异性的密码子使用偏好性。
- 许多算法可以用来建立基因结构的模型,如动态规划、线性判别分析、隐马科夫模型、 神经网络等。
高通量测序的结果其实是一个基因集,拿到这个结果估计大家最关心以下2个方面:1. 哪些基因有哪些功能,参与哪些生物过程;2. 哪些基因有哪些变化(基因结构或表达模式);其中第一方面的信息需要对基因进行功能注释才能得到,下面我就给大家分享一下,基因是怎么被注释的!
基因功能注释往往在以下几类项目中直接出现:
1. 基因组从头组装(denovo测序):主要结果是基因序列组装、基因注释(基因结构注释和基因功能注释):基因结构注释就是明确哪些序列是内含子、外显子、基因间区等,功能注释时预测每个基因编码什么蛋白,蛋白又执行什么功能;
2. 无参转录组:主要得到组装的unigene序列,需要对unigene的功能进行注释;
3. 有参转录组:主要信息是基因表达差异,但基因功能的分类及富集分析的基础依然是功能注释;
4. 其他,像小RNA、LncRNA等对靶基因均有功能注释;
蛋白是功能的执行者,蛋白中会存在一些和功能相关的结构,所以可以根据这些结构来预测蛋白的功能;但基因不同,无法通过结构来预测其功能,在实际操作中,一般是用基因对应的氨基酸序列与已知功能的基因数据库比对去预测。
常用的数据库包含以下几个:
1. Nr:NCBI非冗余蛋白数据库,包含的信息很全面, 注释到的基因较多。
2. COG :中文释义即“同源蛋白簇”。COG 分为两类,一类是原核生物的,另一类是真核生物。原核生物的一般称为 COG 数据库;真核生物的一般称为 KOG 数据库,这个数据库更新不是很及时,参考意义不是很大。
3. SWISS-PROT:经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库中的蛋白质的功能经过了试验验证,注释是精确的。注释的蛋白数量不多。
4. TrEMBL:数据库全称“Translation of EMBL”,是从EMBL中的cDNA序列翻译得到的,其中TrEMBL收录的是未经人工注释的编码DNA序列翻译数据。(unreviewed, automatically annotated),不难看出,相比之下,sp数据库更可靠。
5. KEGG:翻译成中文是京都基因与基因组百科全书,是一个整合了基因组、化学和系统功能信息的数据库,旨在揭示生命现象的遗传与化学蓝图。它是由人工创建的一个知识库, KEGG 数据库最优的地方在于拥有描绘已知通路的代谢通路图;另外 KEGG中有一个“专有名词”KO(KEGG Orthology),它是蛋白质(酶)的一个分类体系,序列高度相似,并且在同一条通路上有相似功能的蛋白质被归为一组,然后打上KO(或K)标签,一般用字母K后面加5个数字表示。KEGG_ID 是pathway的id,表示方法是2-4个字母,后面跟上5个数字,
6. GO(gene ontology),是基因本体联合会(Gene Onotology Consortium)所建立的数据库,旨在建立一个适用于各种物种的,对基因和蛋白质功能进行限定和描述的数据库,按照三大类别BP(生物学过程), MF(分子功能), CC(细胞组分) 对基因的产物-蛋白质进行了分类;并能随着研究不断深入而更新的语言词汇标准. 在GO数据库中,本质上是一个有向无环图的数据结构,在三大类别之下,又有小的分类层级,一层一层的分类下去;对于某个具体的GO号来说,代表了一组同源蛋白,拥有相似的结构和功能
7. Pfam(http://pfam.sanger.ac.uk/:是一个被广泛使用的蛋白家族数据库,它有两个数据库,高质量,手工确定的Pfam-A,自动注释的Pfam-B数据库。
注释的原理:
基因功能注释的基础就是序列比对,说的直白点就是通过比对已知功能的蛋白来预测目的蛋白质的功能,与数据库比对是通过以下两种原理进行:
1. 基于序列相似性:就是用目的蛋白序列与蛋白数据库进行比对,将数据库中比对相似性高的蛋白序列的功能作为目的蛋白的功能,常用的是Nr、Uniprot数据库 ,常用软件是blast和diamond 。
2. 基于结构域:Pfam数据库中收录有各种基因家族的保守域模型,可以用HMMER软件将目的蛋白序列与数据库中的模型进行比对,如果序列上存在某个结构域,那么推测序列含有该结构域的功能。
但是通常情况下,拿到单个基因的功能是不够的,因为生物功能实现是多个基因相互作用、协同完成的,所以要对拿到的基因集进行功能分类,以便更好地了解基因到性状的复杂的生物过程。比如,最常见的转录组中对差异基因做的功能分类注释(GO、KEGG),也是利用已有的分类去预测目的基因的分类。
image目前基因的功能注释还存在一些局限性:
1. 比对本身的不足:比对的相似性达到多少才可以被接受?但绝不会是百分之百,这个“度”需要考虑比对长度、比对分值、identity值等,但就凭这些就能满足我们对基因功能的分析吗?我想还不够。
2. 各数据库数据覆盖度及数据质量参差不齐,例如:Swiss-Prot蛋白功能均经过验证,但数据量比较小,Nr数据库数据量大,但非验证信息较多;没有一个数据库能准确地注释每个物种的每个基因,所以质量不够,数量来凑,这也是为什么要用多个数据库进行注释的原因。