生物信息学分析

python pyensembl:基因组位置注释到基因组特征(基

2020-11-25  本文已影响0人  JeremyL

PyEnsembl 为用户访问 Ensembl参考基因组数据提供了一个很好的接口。可以直接从Ensembl FTP服务器下载参考基因组的GTF和FASTA文件,并且解析文件;Ensembl 并且提供了一些方法,用户可以通过基因组上位置提取对应的注释信息以及对基因组特征进行各种操作。

#安装

pip install pyensembl
#命令
pyensembl install --release <list of Ensembl release numbers> --species <species-name>

#实例
pyensembl install --release 75 76 --species human

#使用

from pyensembl import EnsemblRelease

# release 77 uses human reference genome GRCh38
data = EnsemblRelease(77)

# will return ['HLA-A']
gene_names = data.gene_names_at_locus(contig=6, position=29945884)

# get all exons associated with HLA-A
exon_ids  = data.exon_ids_of_gene_name('HLA-A')

#缓存位置设置

默认缓存到目录pyensembl下:

C:\Users\用户名\AppData\Local\pyensembl\

自定义缓存位置:

import os

os.environ['PYENSEMBL_CACHE_DIR'] = '/custom/cache/dir'

#非Ensembl 的数据

PyEnsembl 可以导入自定义数据;本地数据,指定本地路径;远程数据,指定URLs 。

示例:

data = Genome(
    reference_name='GRCh38',
    annotation_name='my_genome_features',
    gtf_path_or_url='/My/local/gtf/path_to_my_genome_features.gtf')

data.index()
gene_names = data.gene_names_at_locus(contig=6, position=29945884)

#API

EnsemblRelease 对象提供各种方法访问参考基因组的注释信息(gene_name, gene_id, transcript_name, transcript_id, exon_id

##Genes

​ 基于contig上的位置(点或区域)注释到基因列表

##Transcripts

##Exons

#原文

PyEnsembl github

上一篇下一篇

猜你喜欢

热点阅读