基因组肿瘤泛基因组

泛基因组 | 简介

2020-08-16  本文已影响0人  生信师姐

一、什么是泛基因组?

2005年,Tettelin等人提出了微生物泛基因组概念(pangenome,pan源自希腊语‘παν’,全部的意思),泛基因组即\color{red}{某一物种全部基因的总称}。2009 年,Li等人首次采用新全基因组组装方法对多个人类个体基因组进行拼接,发现了个体独有的DNA序列和功能基因,并首次提出了“人类泛基因组”的概念,即人类群体基因序列的总和。2009 年泛基因组测序首次应用于人类基因组学研究;2013 年泛基因组测序应用于动植物研究领域。

结构变异中的存在/缺失变化(PAVs: Present/absent variations)是泛基因组的重点研究对象。

泛基因组进而可以分为,\color{#00FF00}{核心基因}(core genes)\color{#00FF00}{可变基因} (variable genes)

image.png

功能上的差异:

二、为什么要开展泛基因组研究?

三、技术路线

目前比较流行的研究方法有三种:

1. 不基于参考基因组的重头组装

这是构建泛基因组或者参考基因组最经典的方法,分别对多个个体分别进行从头组装并且注释,然后将所得的每个个体的组装好的序列与参考序列基因组进行互相比对,找出比对不上的区域或者基因,这些个体独特的基因就是可变基因。

优点:不基于参考基因组,可以避免基于基因组方法中由于比对所产生的误差。另外因为是对每个个体进行重头组装,所以该方法可以进一步用于个体之间CNV的研究。

缺点:因为需要对每一个个体进行de novo assembly,然后还需要全基因组比对,所以该方法需要比较大的计算资源,需要比较高的测序深度(50X>)或者Mate-pair序列进而增加了预算,以确保重头组装的准确性。这方法需要对每个个体进行组装并且注释,对于含有上百个个体的泛基因组研究不太适合对于植物基因组的从头组装,这种方法对于小麦这种大型复杂的植物也不太适合。

2. 基于参考基因组的迭代组装

相当于一种迭代的方式,分别将每一个个体的reads先比对到参考基因组中,然后找出没有比对上的部分进行组装,得到新的基因序列进而扩展原有的参考序列。一步一步这样迭代,直到所有的个体都处理完,最后建立起泛基因组,再进行注释。另外这种方法需要的测序深度较低,因为这种迭代的方法还可以将遗传类型较接近的个体pool在一起进行迭代组装,进而增加组装的深度。

优点:因为只是组装没有比对上的部分,相对需要更少电脑资源,比较适合构建群体个体数目比较多的,基因组相对较大的植物基因组。

缺点:这种方法可能会产生更多的小片段,并且无法探究每个个体的CNV。

3. 基于参考基因组的重头组装

这种方法又被称为"map to pan"方法,这种方法是先进行de novo组装,然后将组装好的每个个体的基因序列比对到参考基因组中,找出没有比对上的序列,进而将所有没有比对上的序列找出并构建出泛基因组。这种方法也比较适合大规模的群体,但是如果你所研究的物种基因组很大的话,该方法也需要耗费大量的计算机资源。


image.png

四、应用

此处输入图片的描述

五、局限性

1. 技术的局限性

目前,大多数的植物泛基因组分析中使用的都是基于短读长的二代测序数据。但是,短读长序列的一个缺点是对重复序列区域的组装并不理想。而现有的植物泛基因组分析结果表明,非参考基因组序列很大一部分是由重复序列组成。所以,目前的泛基因组序列大都是一些长度较短的,高度碎片化的序列构成。一方面,这些重复序列的组装结果并不准确,另外一方面,组装出来的序列中的基因都是片段化的。非完整的基因序列为下游的基因有无变异分析带来偏差,无法得到正确的基因有无变异图谱。

相比之下,基于单分子实时的第三代测序技术能够产生较长的读长,能够跨过某些重复序列,从而在一定程度上解决泛基因组分析中的重复序列问题,从而产生更加精准的基因有无变异图谱。但是,目前来讲,三代测序技术测序错误率较高,通量较低,价格较贵,还无法应用于大规模的群体遗传学研究中。随着技术的不断发展,一些技术壁垒被突破,如目前的CCS长读长序列的测序准确度已经超过99.8%(Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome,2019,NBT),这为准确获取个体基因组的序列提供了技术的支持。相信随着三代测序技术的发展和普及,我们可以构建更加完整的植物泛基因组序列。

2. 应用的局限性

泛基因组分析包括两个主要的内容,一是构建泛基因组序列,二是基于泛基因组的基因有无变异分析,建立泛基因组序列的基因数据库,及后续的应用研究。目前,大多数的植物泛基因组研究的重点放在第一部分。

在第二部分中,目前大多泛基因组的应用就是构建一个泛基因的数据库。数据库里面主要是包含了新发现的基因的基本信息,还有这些基因与RNA-seq比对的信息,在不同群体中基因出现的频率等相关信息。泛基因组中,新发现(新组装出来参考序列没有)的基因可以进一步用于功能分析,下游的湿实验通路研究,基因选择育种等一些的应用中。

但实际上建立数据库只是泛基因最基本的应用,对于实际的育种帮助还是处于很基础的阶段。 为什么这样说呢?在上次番茄泛基因组发表之后,各路植物基因学术界的大牛都在推特上议论一 番。其中有大牛一针见血的提出了目前植物泛基因研究最大的局限。他说道“他所认同的泛基因组,并不是单纯的将成百上千个个体进行测序比对,然后将所有比对不上参考基因组的 reads组装成一推新的contigs,然后将其和参考基因组拼接成泛基因组。这些新的contigs既不能准确的放回到参考基因组中,进而进行基因定位克隆,更下游的分析,并且运用于育种中。也不能很准确的代表该物种所有个体的基因多样性。他理想中的泛基因组是类似一个图谱型的基因组,在每个变异位点上展示,所有个体的基因(各种突变)序列信息。”

3. 无标准化分析流程

不同泛基因组研究中使用到的样本数量(>3),测序(>110X),构建泛基因组的策略,序列注释方法以及判断基因有无变异(PAV)的方法都有很大的差别。这导致了即使对同一种物种来讲,不同实验室构建的泛基因组序列及基因有无变异结果不能进行直接的比较;在不同物种之间,也无法从系统进化的角度分析基因在植物进化及农作物驯化等生物过程中的基因流失或基因复制等现象。所以,植物的泛基因组分析亟需建立一套操作方便,结果精确,可移植性强的流程,包括样本量的选择,基因组的测序、组装,泛基因组的构建,序列注释等一系列生物信息学标准化分析流程。

https://www.jianshu.com/p/7e07ce1c7d10

上一篇下一篇

猜你喜欢

热点阅读