2020-01-14 bwa比对:实操

2020-01-14  本文已影响0人  王子威PtaYoth

所有的比对工具均基于相同的原则:
1. 从参考基因组建立一个索引
2. 将FASTA和FASTQ文件中的序列同索引进行比对

建立人类的参考基因组索引

使用哪个参考基因组可参考bwa工具的作者Heng Li 2017年的一篇博文:
https://lh3.github.io/2017/11/13/which-human-reference-genome-to-use
目前还处于学习阶段,暂先使用GRCh38(hg38)基因组。

下载参考基因组
wget ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.15_GRCh38/seqs_for_alignment_pipelines.ucsc_ids/GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz

服务器上wget太慢了,开个微皮恩下,飞起来了。

gunzip ~/ref/GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz
bwa index ~/ref/GCA_000001405.15_GRCh38_no_alt_analysis_set.fna
执行bwa比对

ls了一下目录,发现有QLXA_1.fq.gzQLXA_2.fq.gz两个文件。是不是代表这是一个双端测序的文件。

gunzip QLXA_1.fq.gz
gunzip QLXA_2.fq.gz

得到了QLXA_1.fq和QLXA_2.fq。
对FASTQ文件执行FastQC。

fastqc QLXA_1.fq QLXA_2.fq

得到了FastQC report,发现存在adaptor,在比对中要注意,如何trim暂时还未学习。

bwa mem进行双端模式比对,输出sam文件

bwa mem GCA_000001405.15_GRCh38_no_alt_analysis_set.fna QLXA_1.fq QLXA_2.fq > output_untrim.sam

还需要回答几个问题:

  1. 如何选择参考基因组,各个参考基因组之间的差别?
    选择最新版本的参考基因组GHCh38,写了个学习笔记
    《2020-01-14 了解人类不同版本参考基因组及如何选择》https://www.jianshu.com/p/e65115b4633a
  2. QLXA_1.fq和QLXA_2.fq是否是同一样本的双端测序文件,如何检验?
    测序仪测序的时候把文件命名好(嗯?)
  3. 如何trim,比较trim adaptor和不trim adaptor的align score。
    学习《Biostar Handbook》XII QUALITY CONTROL
上一篇下一篇

猜你喜欢

热点阅读