重测序分析基因组三代测序技术

基因组-genome survey(2)

2020-05-24  本文已影响0人  Zhigang_Han

在实际基因组概貌调查中,流式细胞术、染色体基数观察和基因组调查测序往往是同时进行的。
在此,我们主要介绍下基因组调查测序与K-mer分析

1、基因组调查测序

Survey一般测序量为预估基因组大小的30-50X(二代测序)。
通过survey我们可以知道如下信息:
(1)基因组大小
(2)基因组杂合度
(3)重复序列比例
(4)GC含量分布

2、K-mer分析

(1)什么是K-mer
从一段连续序列中迭代地选取长度为K个碱基的序列,若每条序列的长度为L,那么可以得到(L-K+1)个K-mer。


K-mer滑动示意图

(2)K-mer估计基因组大小(K-mer有效深度大于20且K-mer种类数要大于基因组)
在数据量一定的情况下,K-mer出现的频数是服从泊松分布(偏态分布,可以理解为最优解,想想卖馒头的例子)的,K-mer频率分布曲线的峰值作为其期望测序深度。
基因组大小计算:G=Knum/Kdepth


17-mer测序深度分布图
Kdepth=1的情况认为是错误情况,计算错误率,可以用于修正基因组大小。
Revised Gsize= Genome size X (1-Error Rate)
以17-mer为例,假如一个碱基测错的话,其实就是放大17倍,因此二代数据做Kmer分析更加准确些。
3、基因复杂度估计

(1)基因组的杂合区段的K-mer深度较纯合区段降低50%
例如,来自基因组的一个17-mer片段,如果没有杂合性,其覆盖度为2;如果有一个杂合位点,则这个片段将会产生2条序列,构成不同的17-mer。

5-mer杂合示意图
(2)杂合峰的意义
如果目标基因组有一定的杂合性,会在K-mer深度分布曲线主峰位置(c)的1/2处(c/2)出现一个小峰。同时杂合率越高,该峰越明显。
如果目标基因组是多倍体物种,特别是同源多倍体或相近物种杂交形成的多倍体,两个或多个两个或者多个亚基因族序列高度同源,这样就导致相应区域的K-mer数量成倍地增加,K-mer深度分布曲线就会在主峰深度位置1倍(4倍体)或者1倍和2倍(六倍体)出现峰值。
同样地,如果重复序列偏高呢?答:会出现拖尾现象
如果测序质量不高,低深度地K-mer数量大量增加
理想的K-mer分析
不理想的K-mer分析
多倍化Kmer分析
杂合率模拟
Ref:
植物基因组学-樊龙江著
A host plant genome (Zizania latifolia) after a century-long endophyte infection
Echinochloa crus-galli genome analysis provides insight into its adaptation and invasiveness as a weed
基因课-张旭东
上一篇 下一篇

猜你喜欢

热点阅读