【文献阅读】泛基因组解析转座子变异驱动的棉花基因组进化
作者收集了 344 份具有代表性的二倍体棉花 A 分支的重测序数据,基于“map-to-pan”的策略鉴定了非参考序列,和已有的参考基因组合并,得到了 2166 Mb的泛基因组序列和47257 个泛基因。其中 88.1%、3.1%、8.6% 和 0.3%的基因被鉴定为核心(core)、次核心(softcore)、非必须(shell)和特有(cloud)的基因。作者通过亚洲棉泛基因在群体中的分布特征鉴定到亚洲棉在中国进行适应性进化过程中被优选出来的 645 个有利基因和 103 个不利基因。
构建泛 TE 文库,作者比较了二倍体和四倍体棉花基因组中的转座子差异,发现了在多倍化后二倍体和四倍体棉花的转座子扩增表现出不一致的进化方向,LTR 反转录转座子在四倍体亚基因组间中协同增殖,来自 At 亚基因组的 LTR 逆转录转座子的入侵使得 Dt 亚基因组的大小变大,但是 At 亚基因组的转座子扩增小于A2,导致了四倍体棉花亚基因组大小进化的趋势相反。
通过泛基因组分析,作者发现了 LTR 反转录转座子在棉花基因组进化过程中的作用,为多倍体棉花基因组的进化提供了新的见解。
核心基因受到的选择压力更小,核心基因有更高的相对表达量和更长的外显子长度作者对这些泛基因进行了详细的分析,对比了不同分类的基因的特征,与 core 基因相比,cloud 和 shell 基因具有更少的 Pfam 结构域注释,更低的表达量,更少的外显子,更短的基因长度,更高的 Ka/Ks 值和更高的 TE 覆盖度,这些结果表明可变基因的进化速度比核心基因更快。
顶部和底部代表 99%的置信区间评估亚洲棉泛基因组的基因组结构,作者选择了不同数量的材料进行了
2000 次随机抽样估计了亚洲棉的 core 基因和 pan 基因数量
作者使用 K-means 算法将 5631 个可变基因(softcore, cloud 和 shell 基因)分为四个簇(图 3.1.7)。在簇 I 中,发现 1128 个基因,这些基因的频率较低,GO富集分析结果显示这些基因主要参与一些离子转运相关过程。簇 II 中的 385 个基因主要存在于 A1草棉中,它们参与调控萜烯合成酶活性。簇 III 中的 995 个基因在 CHN中高频存在,它们参与调节水解酶活性和酰基转移酶活性。簇 IV 包含 3124 个基因,这些基因在中国和美国地理来源中都有优势,它们参与了基本的生物学过程。
使用 K-means 算法来聚类基因。每个聚类都聚集在一个或两 个地理分布中,每个聚类中的 GO 富集结果显示在右侧
K-means算法
是一种聚类算法,用于将数据集中的数据点分组成不同的簇。它是一种迭代的、无监督学习的算法,可以根据数据点之间的相似性将它们划分为具有相似特征的群组。
以下是K-means算法的基本步骤:
- 选择簇的数量K:首先需要确定要将数据划分成多少个簇。这个K值可以根据先验知识或通过试验和评估来确定。
- 初始化簇中心:随机选择K个数据点作为初始的簇中心。
- 分配数据点到最近的簇:对于每个数据点,计算其与各个簇中心的距离,并将其分配到距离最近的簇中。
- 更新簇中心:对于每个簇,计算该簇内所有数据点的平均值,并将其作为新的簇中心。
- 重复步骤3和4,直到达到停止条件:重复执行步骤3和4,直到达到停止条件,例如达到最大迭代次数或簇中心不再变化。
- 输出最终的簇划分结果。
K-means算法的目标是最小化簇内数据点与其簇中心的距离,并最大化不同簇之间的距离。它的优点包括简单易懂、计算效率高,但也有一些限制,例如对于不规则形状的簇或异常值比较敏感。
K-means算法在数据挖掘、图像分析、模式识别等领域有广泛应用,用于聚类分析、数据压缩、图像分割等任务。
常见的数据分类算法还有随机森林、相关系数等。
绿色条表示观察到的丢失序列与基因距离,黑色条表示 随机序列与基因间距之间的关系,右图展示了丢失序列相关基因的 GO 富集结果。作者进一步分析了多倍体中丢失的序列和基因的关系(图 3.2.4)。我们发现丢失序列在 A2 中相比随机序列更接近基因,但在 D5 中却相反,新插入的序列距离基因更远,这表明了序列的丢失在两个亚基因组中强度不同,对基因组的影响有差异。进一步的分析表明,在 A2 和 D5 中基因区域及其周围 2 kb 的侧翼区域丢失的序列分别与 4088 和 2920 个基因相关。在 A2 基因组中,丢失的基因参与了多种分解酶的活性,包括果胶酸分解酶活性、碳氧分解酶活性和醛分解酶活性。在 D5 基因组中,丢失的基因则参与了蛋白质自结合、微管蛋白结合和离子通道活动。
转座子影响与新基因的产生
新生序列的比例随基因年龄的增加而降低。箱线图显示了新生序列和不同年龄基因之间的距离。作者根据系统发育树,我们将 47257 个泛基因分配到五个年龄区间。 最古老的基因组与单子叶植物水稻同源,其中包含 51% 的基因。最年轻的基因仅存在于亚洲棉泛基因组中,占基因总数的 15.6%。
群体中的基因保守性与基因年龄显著相关作者还发现了不同年龄组基因与编码长度、表达水平和外显子数量之间的相关。将基因年龄与在群体中的频率关联后发现年龄较老的基因在种群中的存在频率更高,相反,新基因的进化速率更快。基因的长度、表达水平和外显子数量与基因年龄相关,中位数从最年轻到最古老的组逐渐增加。这表明编码长度较长的基因更有可能被保留,或新基因在漫长的进化过程中长度逐渐增加,这与之前在水稻、拟南芥和人类中的研究结果一致。
Gypsy 和 Copia 类型的转座子插入到基因 2Kb 不同区域附近的数量作者的研究也揭示了基因组中转座子元件在新基因的进化中的作用。特
别是,Gypsy 超家族在 G. arboreum 中的高频率插入。在其他植物如番茄和拟南芥的研究中,Copia 超家族的反转录转座子相比 Gypsy 优先在基因或基因附近出现(Domínguez et al., 2020)。 在本研究中,我们发现 Gypsy 超家族在亚洲棉泛基因组中比 Copia 更频繁地插入基因附近,尤其是在较年轻的 (Age5) 基因中。这种和其他植物相反的趋势可能与 A2亚洲棉中超高的 Gypsy 含量有关。我们发现 6217 个基因的编码序列含有 TE 结构域,其中 3938 个(63.3%)是由 Gypsy 插入引起的,并且主要集中在物种特异性基因(2206 个基因)中。 这一观察表明 Gypsy 超家族在亚洲棉的新基因进化中发挥关键作用。这些发现揭示了在亚洲棉的进化历程中,LTR反转录转座子不同的富集模式和它们对新基因进化的影响。特别是,Gypsy 超家族的高度富集和其对物种特异性基因的影响,强烈暗示了它们在 A2亚洲棉的基因组重塑和适应性进化中的重要性。
多倍体化后单拷贝基因状态的模型基因丢失和增加是多倍化后的常见现象。
Copia 转座子导致基因丢失的示例作者展示了一个 Copia 家族的反转录转座子的插入导致四倍体基因丢失的示例。该基因(位于染色体 A07 上 5.54 Mb 至 5.78 Mb)具有与植物防御捕食者相关豆科植物凝集素结构域,在 At 亚基因组中丢失,但在其他三个基因组中保留。
我们对不同状态下的单拷贝基因进行了基因特征检查。结果表明,拷贝数丢失的基因编码长度更短,表达水平更低,Ka/Ks 值更高,TE 覆盖率更高。相比之下,拷贝数增加的基因更加保守。
分析 LTR 反转录转座子在四个基因组中不同时期的扩增特征LTR 是棉花基因组中重复序列含量最多的元素,它们能够插入到基因组中的不同位置,并且对基因组的结构和功能产生影响。因此,了解多倍化对棉花基因组中TE 的影响,有助于深入理解棉花基因组的演化和适应性。一些截断的 LTR 可能在其他棉属基因组中具有完整的结构,这表明泛基因组可以帮助识别更多的 LTR注释。