如何利用泛基因组来深度发掘一个物种？

2021-01-09 本文已影响0人生信阿拉丁

作者：童蒙
编辑：amethyst

大豆是一种非常重要的油料和蛋白质来源。为了研究其基因组多样性，需要构建高质量的泛基因组。作者denovo组装了26个代表性的大豆，同时对2898个大豆进行了重测序，结合之前发表的基因组，构建了一个graph-base genome，并且进行相应的分析，得到了许多二代测序不能被发现的遗传变异。通过研究SV和转录组的变化，可以更好的发掘性状背后的基因。

背景介绍

01 泛基因组介绍

单个参考基因组不能代表一个物种的所有遗传多样性，从而会限制遗传变异的鉴定，尤其是SV和CNV。
传统的linear reference不能很好地展示不同的allele和大的SV，而graph-base genome可以很好地解决这个问题。
graph-base genome：小编以为是一种以图论来表示的基因组数据结构。
PAV：presence/absence variant ，一个变异是否存在或者确实与某个基因组中。

02 大豆的介绍

重要的油料作物，驯化历史约5000年。
参考基因组有Wm82,ZH13,W05。不同的品种间，发现有许多的PAV和CNV，说明一个基因组不能代表所有的种群。

03 文章创新点

三代测序组装了26个基因组
构建了graph-base genome
找到了许多二代无法发现的变异与基因融合

材料与方法

采样与实验

组装：26个品系的单个植株，建20K的文库，进行Sequel I 测序，同时进行二代测序
光学图谱：使用嫩叶子，用酶DLE-1
Hi-C辅助组装：使用MboI和DpnII酶。
重测序：2027个样品。
RNA-seq和miRNA-seq：9个样品的叶、花、种子，采集不同时期的进行测序，大家可以借鉴一下。
A, root from growth stage V1;
B, stem from growth stage V1;
C, young leaf from growth stage V1;
D, mature leaf from growth stage R1;
E, old leaf from growth stage R4;
F, flower from growth stage R1;
G, pod and seed before 4 weeks;
H, seed at 6 weeks;
I, seed at 8 weeks。

分析内容

变异检测与进化分析：使用ZH13作为参考基因组，进行变异检测，并进行绘制进化树。
基因组组装：使用canu组装，二代测序进行校正；HERA从来合并pacbio和bionano的结果，使用Hi-C进行辅助组装。
重复序列分析和基因注释：使用denovo和同源比对来鉴定重复序列。使用LTR_STRUC来鉴定LTR反转座子，RepeatMasker来查找重复序列，使用SoyTEdb来注释TE元件，ShortStack来预测miRNA，cmscan来预测SnRNA和snoRNA，tRNA-scan-SE来预测tRNA。使用Augustus、同源预测和转录本来预测基因，用MAKER进行整合，用PASA来预测可变剪接。
共线性分析：使用MUMmer4，利用Wm82和W05来进行分析；同时也进行了WGD和PAV的分析。
SV鉴定：检测PAV、CNV，同时使用vg构建图基因组。
遗传变异鉴定：计算SNP密度、dN，dS和π。
基因和miRNA表达分析。
Core and Dispensable Gene Family Clustering：使用OrthoMCL 鉴定core gene family。
CHS基因单元分析。
基因融合分析。

结果

01 组装的结果

使用2898个重测序，每个13x，获得了31M个SNP；并且构建进化树，将2898个accession分成6个大类。组装结果都还是很好的，见下图。重复序列的占比也都比较稳定，在55%左右，基因数目也比较恒定。

02 鉴定核心和非必须基因集

定义了softcore gene（存在于25个个体中的基因家族）、dispensable gene（存在于2个个体中的）、private gene（只存在于1个个体中的），结果比例如下图。虽然dispensable gene和private gene的个数多，但是在单个样品中比例不高。可以看出core gene和softcore gene在50%左右，dispensable gene为50%左右。

core gene有更高的domain比例，同时π和dn/ds也比较低，说明core gene更保守，这个很容易解释。

03 鉴定SV

鉴定了总共723k个PAV事件，长度在1kb-2kb之间，总共大概4.71Gb的序列，平均每个个体167M。PAV是基因组大小差异的主要的来源。

04 构建图基因组

SV也可以分为core，softcore，dispensable，private。发现重复区域中富含SV。
构建了一个图基因组，然后使用图基因组，来鉴定sv。precision、recall和F1分别为0.94，0.75，0.83。还是一个比较高的检测效力。

05 研究基因结构的变化

基因结构的变化是主要表型的来源，同时融合基因也是基因进化的一方面。

此外还研究了SV与驯化的关系，以及与转录组表达的关系。

展望

建立了一个pan-genome，为后续的研究提供了很好的基础。

这是一篇经典的文章，里面内容很丰富很详实，值得多读几遍。里面涉及了一些功能的内容，由于小编对这块不熟悉，就没有去解读了。大家如果想继续了解，可以去阅读原文。

参考文献
Liu Y , Du H , Li P , et al. Pan-Genome of Wild and Cultivated Soybeans[J]. Cell, 2020, 182(1).