生信相关生信小白向大佬学生信

使用kmer来评估基因组特征。

2020-01-15  本文已影响0人  Zhigang_Han
1、基本定义

k-mer:在reads上,从第一个碱基开始,一个碱基一个碱基地移动,截取长度为k的DNA序列,称为k-mer。


image.png
2、重复序列

在基因组中,出现两次或以上的序列。


image.png
3、杂合序列

在多倍体中(包含二倍体),同源染色体中的区域产生突变造成的序列。


image.png
4、K-mer分析
image.png

原始数据中的k-mer分布,可以通过观察和计算,推测出基因组的特征(基因组大小,重复率和杂合率)。

5、基本思路

排除测序错误的干扰:
测序错误会产生错误的碱基,从而产生基因组中不存在的k-mer,它们在k-mer分布中属于低频k-mer, 我们把拐点前的低频k-mer当作错误k-mer去除掉,则可排除测序错误的干扰。
基因组大小:
我们把每个k-mer当作基因组中的一个碱基,通过观察k-mer分布,我们可以知道k-mer的总数(T,所有的碱基数量), k-mer峰所在的位置(μ,这个峰值就是平均k-mer出现的频数,也就是平均每个碱基出现的次数),而基因组大小:

image.png
重复序列:
理论上单拷贝序列的k-mer,出现在1.6倍主峰以后的概率非常低,所以我们取峰值的1.6倍后的k-mer为重复k-mer,从而得到重复k-mer的总数( Tr ,相当于重复序列的碱基数),从而我们可以算出重复序列的长度:
image.png
基因组中的单拷贝序列长度U=G-R (3)
???杂合率计算:
image.png
链接地址:https://zhuanlan.zhihu.com/p/36408901
上一篇下一篇

猜你喜欢

热点阅读