ggplot集锦

根据染色体坐标快速得到基因组的 DNA 序列

2022-10-30  本文已影响0人  可能性之兽

1. Samtools faidx

利用 samtools 的 faidx 工具,方法如下:
首先用 faidx 生成 fasta 序列文件索引

samtools faidx hg19.fa
samtools faidx hg19.fa chr13:1000000:10006666

2.bedtools getfasta

BEDTools是可用于genomic features的比较,相关操作及进行注释的工具。而其中getfasta的功能就是根据坐标信息提取序列信息。
-fi:参考基因组fasta文件;
-bed:需要提取的序列的位置信息;
-fo:输出文件。

bedtools getfasta [OPTIONS] -fi <input FASTA> -bed <BED/GFF/VCF>

3.pysam fetch

name_file = pysam.AlignmentFile(input_filename, "rb")

for line in name_file.fetch(contig="chr21",  start=xx, end=xx):
    print(line)
 

提取参考基因组某个位置的碱基 - 简书 (jianshu.com)

4. biopython

genome_dict= {}

for line in SeqIO.parse("ref.fa", format="fasta"):
    print(record)
    genome_dict[line.id] = record.seq.upper()
genome_dict["chr1"][1:100000]

5.R Biostrings

library(Biostrings) ;
s = readDNAStringSet("ref.fasta")
s$chr1[1:100]
上一篇 下一篇

猜你喜欢

热点阅读