根据染色体坐标快速得到基因组的 DNA 序列
2022-10-30 本文已影响0人
可能性之兽
1. Samtools faidx
利用 samtools 的 faidx 工具,方法如下:
首先用 faidx 生成 fasta 序列文件索引
samtools faidx hg19.fa
samtools faidx hg19.fa chr13:1000000:10006666
2.bedtools getfasta
BEDTools是可用于genomic features的比较,相关操作及进行注释的工具。而其中getfasta的功能就是根据坐标信息提取序列信息。
-fi:参考基因组fasta文件;
-bed:需要提取的序列的位置信息;
-fo:输出文件。
bedtools getfasta [OPTIONS] -fi <input FASTA> -bed <BED/GFF/VCF>
3.pysam fetch
name_file = pysam.AlignmentFile(input_filename, "rb")
for line in name_file.fetch(contig="chr21", start=xx, end=xx):
print(line)
提取参考基因组某个位置的碱基 - 简书 (jianshu.com)
4. biopython
genome_dict= {}
for line in SeqIO.parse("ref.fa", format="fasta"):
print(record)
genome_dict[line.id] = record.seq.upper()
genome_dict["chr1"][1:100000]
5.R Biostrings
library(Biostrings) ;
s = readDNAStringSet("ref.fasta")
s$chr1[1:100]