Illumina paire-end 序列拼接中的Kmer
2021-03-26 本文已影响0人
lkj666
2021.3.23
1. k-mer的定义
k-mer就是一段短的DNA片段,DNA的长度为5bp,则叫做5-mer,k一般取奇数(避免正反链混淆)。
2. k-mer的作用
- 评估基因组大小
- 利用k-mer间的overlap构建序列
在Illumunia二代测序过程中,将150bp的序列切割成150-k+1个kmers。然后利用各个kmers之间的overlap构建De bruijn图,得到最优化路径从而拼接成contig。(直接利用reads之间的overlap进行拼接误差很大)
3. Kmergenie评估最合适的k-mer值
3.1 安装
conda install kmergenie -y
kmergenie(v1.7051)
的python版本要小于3.9,我重新创建了一个python=2.7的新环境进行的安装。
3.2 使用
kmergenie <fq.list> -o <result> -k 140 -l 71 -s 6 -t 10
重要参数:
1. fq.list:包含需要查询的文件,一行一个文件名
2. -o:结果输出的前缀名
3. -k:系统考虑的最大k值(默认:121)
4. -l:系统考虑的最小k值(默认:15)
5. -s:从最小k值到最大k值,每次增加的值(默认:10)
6. -t:线程数
注意:不可过度依赖该程序预测出的最佳值。