基因组survey

2023-01-15 本文已影响0人 Bioinfor生信云

背景

基因组测序现在已经成为生物学研究的一个重要手段，基因组的杂合度和重复序列对后续基因组组装有很大的影响。高杂合的基因组往往无法合并姊妹染色体，导致组装的结果偏大，而重复序列在组装中会被折叠，使组装中出现缺口、错误，导致组装的结果偏小。不同的生物体的基因组之间杂合率和重复序列含量差异巨大，因此在进行基因组测序前往往需要对基因组的特征进行调研，以确定测序方案，周期等。

Survey 是评估基因组基本信息的有效手段，对于没有参考基因组的物种，对基因组信息有个明确的概念对后续的测序及组装方案是很有必要的。

通过survey我们可以知道如下信息：

基因组大小：决定测序策略和测序量
重复序列比例
杂合度：对于二倍体，两组染色体会有差异
GC含量：过高或过低的GC含量会导致测序偏向性（二代测序）

生成Kmer频数表：jellyfish
基因组大小、杂合、重复估计：GenomeScope2、gce

jellyfish的使用

进行Kmer计算

jellyfish count  \ 
-t 4  \ #线程数
-C  \ #统计正负链
-m 19  \ #Kmer大小
-s 1G  \ #设置初始内存大小
-g f1.fasta \ #输出文件（多个文件输入列表）
#-G 2   \ #多个文件解压并行
-o Kmer_19  #输出前缀

生成kmer频数统计表

jellyfish histo  \
-v \#生成日志
-o Kmer_19.histo  \#指定输出文件
-t 4 \#设置线程数
-h 10000  \ #设置 最大值
Kmer_19 #输入文件

频数表

统计kmer总数

 jellyfish stats \
Kmer_19 \ #输入文件
-o Kmer_19.stat #输出文件

gce的使用

gce -f Kmer_19.histo \ # kmer频数表
-c 170 \ # kmer深度
-H 0 \ # 启用纯合模式，1杂合模式
-g 725214236 \ # kmer总个数
-M 10000 >gce.table 2>gce.log #-M设置阈值

结果文件

GenomeScope2 的使用

genomescope.R \
-i Kmer_19.histo \
-o gs_out \
-p 1 \
-k 19\
-m 10000

结果文件

linear_plot.png

log_plot.png