生信分析:基因组survey中的K-mer分析是什么?
前一篇推送解读了2022年发表在MP上的同源四倍体马铃薯的基因组。
在基因组组装的过程中,首先要做的是基因组的survey,其中一项很重要的分析是K-mer分析,今天的推送就是K-mer分析的基础知识。
什么是基因组survey
对于没有参考基因组的物种,我们不知道它基因组的大小。通过基因组survey对没有参考基因组的物种进行正式组装前的调查非常重要。
基因组survey常用的方法:
图1
1、流式细胞术:用以估计单倍体细胞核DNA总量(图1)
图2
2、Kmer分析:通过对预计基因组大小的20-50×全基因组测序数据(二代)估计基因组大小、重复序列比例、杂合度、CG含量等(图2)。
图3
3、核型分析:确定染色体条数核确定倍性(图2)
什么是K-mer分析?
图4
从一段连续序列中迭代地选取长度为K个碱基的序列(K-mer),若每条序列的长度为L,那么可以得到L-K+1个K-mer(图4)。
在过去的基因组survey中通常取K=17来进行分析。选择K=17,可以产生的K-mer 种类数为 417,由此可保证产生足够多的K-mer种类数去覆盖整个基因组(417远大于一般的基因组大小)。K取过大会导致计算资源消耗过大。
图5
在理想状态下,K-mer曲线服从泊松分布,即只会出现一个明显的主峰(图5)。但对于一个杂合二倍体,主峰前1/2出会出现一个杂合峰,在杂合度较高的时候可能出现高过主峰的情况(c/2处)。
Error-peak代表由于测序错误率造成的峰,超过2c的拖尾面积代表的重复序列含量,重复序列越多阴影面积越大。
图6
与图5类似,图6把各部分做一个分割(参考自https://zhuanlan.zhihu.com/p/366933242)
蓝色柱子是kmer的观测值;
橙红色拟合线部分对应着深度过低的kmer,这些kmer被认为是测序错误引入的;
黑色拟合线是除去被认为是错误的部分(橙红色拟合线部分)之后剩下的所有k-mer,这些被认为是可靠的kmer数据;
黄色拟合线被认为来自基因组非重复区域的K-mer分布;
垂直的黑色虚线为预测最低深度峰的整数倍覆盖度;
图7
图7是模拟数据,由于未指定错误率,所以没有一开始的测序错误造成的很高的峰。紫色死杂合度为0,只在20处形成了明显的单峰,随着杂合度提高,在10处逐渐形成明显的小峰,绿色时(杂合度为2%)小峰已经超过主峰。
图8
图8是同源四倍体苜蓿K-mer分析,19处的峰是由于高杂合导致,38处是主峰,70处是高倍性导致。
图9
图9是二倍体常绿蓝莓K-mer分析,杂合度为1.27%
本文使用 文章同步助手 同步