Illumina paire-end 序列拼接中的Kmer

2021-03-26  本文已影响0人  lkj666

2021.3.23


1. k-mer的定义

    k-mer就是一段短的DNA片段,DNA的长度为5bp,则叫做5-mer,k一般取奇数(避免正反链混淆)。


2. k-mer的作用

  1. 评估基因组大小
  2. 利用k-mer间的overlap构建序列
    在Illumunia二代测序过程中,将150bp的序列切割成150-k+1个kmers。然后利用各个kmers之间的overlap构建De bruijn图,得到最优化路径从而拼接成contig。(直接利用reads之间的overlap进行拼接误差很大)

3. Kmergenie评估最合适的k-mer值

3.1 安装

conda install kmergenie -y

kmergenie(v1.7051)的python版本要小于3.9,我重新创建了一个python=2.7的新环境进行的安装。

3.2 使用

kmergenie <fq.list> -o <result> -k 140 -l 71 -s 6 -t 10

重要参数:
1. fq.list:包含需要查询的文件,一行一个文件名
2. -o:结果输出的前缀名
3. -k:系统考虑的最大k值(默认:121)
4. -l:系统考虑的最小k值(默认:15)
5. -s:从最小k值到最大k值,每次增加的值(默认:10)
6. -t:线程数

注意:不可过度依赖该程序预测出的最佳值。

上一篇下一篇

猜你喜欢

热点阅读