GATK参考序列的操作(操作FASTA格式的序列)
2020-02-10 本文已影响0人
Greatji
工具名称 | 简介 | 运行命令 |
---|---|---|
BaitDesigner (Picard) | 设计杂交捕获反应设计杂交探针用的 | " java -jar picard.jar BaitDesigner \ TARGET=targets.interval_list \ DESIGN_NAME=new_baits \ R=reference_sequence.fasta " |
BwaMemIndexImageCreator | 生成.img为GATK BWA所需 | "gatk BwaMemIndexImageCreator \ -I reference.fasta \ -O reference.fasta.img" |
"CountBasesInReference | 替换成了CountBases" | 统计在SAM/BAM/CRAM中的碱基 "gatk CountBases \ -I input_reads.bam" |
CreateSequenceDictionary (Picard) | (Picard)生成.dict,这个文件是一个index,GATK很多过程都需要 | java -jar picard.jar CreateSequenceDictionary \R=reference.fasta \O=reference.dict |
ExtractSequences | (Picard)根据区域信息从参考序列中导出一个新的fasta序列 | java -jar picard.jar ExtractSequences \INTERVAL_LIST=regions_of_interest.interval_list \R=reference.fasta \O=extracted_IL_sequences.fasta |
FastaAlternateReferenceMaker | 根据突变的VCF修改reference里的碱基,如果有区域信息,则只显示区域内的序列。 | gatk FastaAlternateReferenceMaker -R reference.fasta -O output.fasta -L input.intervals -V input.vcf [--snp-mask mask.vcf] |
FastaReferenceMaker | 根据区域信息导出区域内的序列。 | gatk FastaReferenceMaker \ -R reference.fasta \ -O output.fasta \ -L input.intervals |
FindBadGenomicKmersSpark | BETA 检查参考序列中的高重复的序列 | gatk FindBadGenomicKmersSpark \ -R reference.fasta \ -O kmers_to_ignore.txt |
NonNFastaSize(Picard) | 统计参考序列中非N的碱基个数,需要实现index生成.bai和.dict | java -jarpicard.jar NonNFastaSize \ I=input_sequence.fasta \ O=count.txt |
NormalizeFasta(Picard) | 将参考序列整理成除最后一行以外,长度相等的fasta格式,默认长度100 | java -jar picard.jar NormalizeFasta \ I=input_sequence.fasta \ O=normalized_sequence.fasta |
ScatterIntervalsByNs(Picard) | 根据参考序列中的N生成区间文件 | java -jar picard.jar ScatterIntervalsByNs \ REFERENCE=reference_sequence.fasta \ OUTPUT_TYPE=ACGT \ OUTPUT=output.interval_list |