2020-01-14 bwa比对:实操
2020-01-14 本文已影响0人
王子威PtaYoth
所有的比对工具均基于相同的原则:
1. 从参考基因组建立一个索引
2. 将FASTA和FASTQ文件中的序列同索引进行比对
建立人类的参考基因组索引
使用哪个参考基因组可参考bwa工具的作者Heng Li 2017年的一篇博文:
https://lh3.github.io/2017/11/13/which-human-reference-genome-to-use
目前还处于学习阶段,暂先使用GRCh38(hg38)基因组。
下载参考基因组
wget ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.15_GRCh38/seqs_for_alignment_pipelines.ucsc_ids/GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz
服务器上wget
太慢了,开个微皮恩下,飞起来了。
gunzip ~/ref/GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz
bwa index ~/ref/GCA_000001405.15_GRCh38_no_alt_analysis_set.fna
执行bwa比对
ls
了一下目录,发现有QLXA_1.fq.gz和QLXA_2.fq.gz两个文件。是不是代表这是一个双端测序的文件。
gunzip QLXA_1.fq.gz
gunzip QLXA_2.fq.gz
得到了QLXA_1.fq和QLXA_2.fq。
对FASTQ文件执行FastQC。
fastqc QLXA_1.fq QLXA_2.fq
得到了FastQC report,发现存在adaptor,在比对中要注意,如何trim暂时还未学习。
bwa mem进行双端模式比对,输出sam文件
bwa mem GCA_000001405.15_GRCh38_no_alt_analysis_set.fna QLXA_1.fq QLXA_2.fq > output_untrim.sam
还需要回答几个问题:
- 如何选择参考基因组,各个参考基因组之间的差别?
选择最新版本的参考基因组GHCh38,写了个学习笔记
《2020-01-14 了解人类不同版本参考基因组及如何选择》https://www.jianshu.com/p/e65115b4633a - QLXA_1.fq和QLXA_2.fq是否是同一样本的双端测序文件,如何检验?
测序仪测序的时候把文件命名好(嗯?) - 如何trim,比较trim adaptor和不trim adaptor的align score。
学习《Biostar Handbook》XII QUALITY CONTROL