组装

基因组surey简介

2022-05-21  本文已影响0人  花生学生信

基因组的复杂程度直接决定了物种的组装难度,已测序物种的基因组大小从几百个基因(支原体Mycoplasma mycoides。 它的最小基因组由473个基因组成)到上百G(墨西哥钝口螈Ambystoma Mexicanum的全基因组序列,为迄今人类所测序的最大的基因组序列(32Gb))。
如何有效的评估基因组的特征,基因组surey是很好的方法。

在组装基因组之前一定要先对要组装的物种有一个大致的了解,判断其复杂程度, 标准如下:
基因组大小:基因组越大,测序花的钱越多
简单基因组: 杂合度低于0.5%, GC含量在35%~65%, 重复序列低于50%
二倍体普通基因组: 杂合度在0.5%~1.2%中间,重复序列低于50%。或杂合度低于0.5%,重复序列低于65%
高复杂基因组: 杂合度>1.2% 或 重复率大于65%

对于没有参考基因组的物种,通过k-mer分析,可以有效的评估基因组的大小、杂合度、重复序列比例、GC含量等,是全面了解某一物种基因组特征的有效方法,为后续的基因组denovo测序、组装提供依据。

基因组surey研究技术路线

k-mer分布图-简单基因组

19-mer频率分布图

图中只有一个明显主峰,没有其他峰,可以判断该物种基因组为简单基因组。

k-mer分布图-高度复杂基因组

图中49X和104X位置分别有一个峰,49X为基因组正常期望深度,104X为重复峰,可以判断该物种基因组为复杂基因组。

k-mer分布图-高杂合基因组
17-mer频率分布图

图中在22X和44X深度分别有一个峰,其中44X为基因组正常期望深度,22X为杂合峰位置,可初步判断该物种基因组为高度杂合基因组。

参考链接:

基因组survey - 简书 (jianshu.com)

让细胞活下来的最小基因组,来自人工合成!| 果壳 科技有意思 (guokr.com)

Nature:最大测序基因组序列解析 (cyagen.com)

上一篇 下一篇

猜你喜欢

热点阅读