Biostar Handbook学习小组NGS

biostar handbook|如何模拟测序结果

2018-02-05  本文已影响41人  xuzhougeng

为了评价一个工具的性能,通常我们都需要先模拟一批数据。这样相当于有了参考答案,才能检查工具的实际表现情况。因此对于我们而言,面对一个新的功能,可以先用模拟的数据测试下不同工具的优缺点。有如下几个工具值得推荐一下:

值得注意的是,这些工具模拟效果是有限,比如建库操作中超声破碎会出现的误差就很难模拟。但是最好的用途就是看看不同生物学事件在数据的情况,比如说发生了“大规模倒置”的基因组得到的数据比对到参考基因组上会是什么情况。

使用dwgsim进行模拟

wgismdwgsim能够根据参考基因组模拟出测序reads,主要是二倍体基因组的SNPs和插入缺失(INDEL)多态位点。wgism容易安装,但是参考答案是以简单的文本格式保存,不容易可视化。dwgsimwgism启发,虽然安装稍微麻烦了点,但是参考答案是以VCF格式保存,很方便可视化。

# 请先安装好ncurse
# 安装dwgsim
cd ~/src
git clone --recursive https://github.com/nh13/DWGSIM.git
cd DWGSIM
make
ln -s ~/src/DWGSIM/dwgsim ~/bin/dwgsim
ln -s ~/src/DWGSIM/dwgsim_eval ~/bin/dwgsim/dwgsim_eval

简单地模拟一批数据

# 获取参考基因组
efetch -db=nuccore -format=fasta -id=AF086833 > genome.fa
# 模拟数据
dwgsim genome.fa data

会得到如下数据

|-- data.bfast.fastq.gz # 用于bfast
|-- data.bwa.read1.fastq.gz # 用于BWA的R1
|-- data.bwa.read2.fastq.gz # 用于BWA的R2
|-- data.mutations.txt
|-- data.mutations.vcf # VCF形式擦

随后将这批数据用BWA比对,以bcftools检测变异和参考答案比较一下。

bwa index genome.fa
bwa mem genome.fa data.bwa.read1.fastq.gz data.bwa.read2.fastq.gz | samtools sort -o data.bwa.bam
samtools mpileup -uf genome.fa data.bwa.bam | bcftools call -mv -o data.bwa.vcf

使用IGV可视化如下

IGV可视化变异

说明samtools+bcftools找变异这个组合肯定靠谱。

上一篇下一篇

猜你喜欢

热点阅读