Bioinformatics生信猿生物信息学

【数据库-3】dbSNP数据库

2018-11-19  本文已影响3人  oddxix

欢迎关注公众号:oddxix

1.dbSNP简介


网址:https://www.ncbi.nlm.nih.gov/SNP/

单核苷酸多态性数据库dbSNP(dbSNP, The Single Nucleotide Polymorphism Database)是由NCBI与人类基因组研究所(National Human Genome Research Institute)合作建立的,收录了SNP、短插入缺失多态性、微卫星标记和短重复序列等数据,以及其来源、检测和验证方法、基因型信息、上下游序、人群频率等信息。

dbSNP接受明显中性的多态性,对应于已知表型的多态性和无变异的区域。它于1998年9月创建,用于补充NCBI收集的公众可获得的核酸和蛋白质序列GenBank。从构建131(2010年2月开始)开始,dbSNP已经收集了超过1.84亿份提交文件,代表了55种生物的超过6400万种不同变种,包括智人,小家鼠,水稻和许多其他物种。 NCBI将在2017年逐步停止对dbSNP和dbVar中的所有非人类生物的支持。

image

dbSNP是一个在线资源,用于帮助生物学研究人员。其目标是作为一个单一的数据库,包含所有已识别的遗传变异,可用于调查各种基因遗传自然现象。具体而言,访问dbSNP中编目的分子变异有助于基础研究,如物理作图,群体遗传学,进化关系研究,以及能够快速,轻松地量化给定感兴趣位点的变异量。此外,dbSNP指导药物基因组学的应用研究以及遗传变异与表型特征的关联。

dbSNP数据流

首先各种来源提交数据,为每个变体分配唯一的提交的SNP ID(ss#)( ss,NCBI Assay ID)。 然后由于不同研究结构提交的SNP会存在冗余,提取SNP位点上下游区域的序列,比对参考基因组,如果多个ss # 比对上相同的位置,说明这几个SNP位点是冗余的,会赋予一个新的reference SNP ID, 以rs开头 。用户可以检索特定rs#记录的数据并分析这些变化。


2.dbSNP的数据结构

2.1数据下载及目录

dbSNP数据下载地址:ftp://ftp.ncbi.nih.gov/snp/

dbSNP下载目录

dbSNP包含了许多目录,其中最有用的是:

organisms/:目录包含了一列有SNP数据的生物体目录,其按通用名后接NCBI分类id号来组织的。
database/:包含模式(schema)、数据、创建表格和索引的SQL语句。
specs/:目录包含重要的文件的格式,内容及其基本介绍。

相关详细信息见ftp://ftp.ncbi.nih.gov/snp/00readme.txt

点击特定的生物体子目录即可访问其中的ftp报表文件,你还可以选择同一个物种的不同版本。比如你点击了human_9606 目录,那么你会发现人体组织子目录包含以下子目录:ASN1_bin/、ASN1_flat/、XML/、VCF/、chr_rpts/、gene_report/、Genome_report/、rs_fasta/、ss_fasta/、genotype_by_gene/、genotype/、haplotypes/、database/、misc/、Enterz/

human_9606 目录

目录说明:

/ASN1_bin : ASN.1 二进制格式的RefSNP文档综述 (.bin)
/ASN1_flat :从ASN.1 二进制格式而来的按染色体排序的RefSNP docsum(.flat)
/XML: 提供refSNP簇的具体查询信息以及NCBI SNP交换格式的簇成员(.xml)
/chr_rpts :包含特定染色体上的RefSNPs 的完整列表(.txt)
/genotype :以基因型交换XML格式提供提交的SNPs的submitter和基因型信息(.xml)
/genome_reports :包含生物体SNP密度分布的概要报告以及每个基因中的SNPs的概要报告(无后缀或.rpt或.log)
/ss_fasta :包含FASTA格式的生物体的所有可用的submitted SNP(ss)序列数据(.fas)
/rs_fasta :包含FASTA格式的人类所有可用的参考SNP (RS)序列数据(.fas)

2.2 /chr_rpts 中的txt文件内容:

1 RefSNP id (rs#)rs代号
2 mapweight where 匹配个数
1 = Unmapped
2 = Mapped to single position in genome
3 = Mapped to 2 positions on a single chromosome
4 = Mapped to 3-10 positions in genome (possible paralog hits)
5 = Mapped to >10 positions in genome.
3 snp_type where snp类型
4 Total number of chromosomes hit by this RefSNP during mapping 匹配到的染色体个数
5 Total number of contigs hit by this RefSNP during mapping 匹配到的conting个数
6 Total number of hits to genome by this RefSNP during mapping 匹配到基因组的个数
7 Chromosome for this hit to genome 匹配到的染色体
8 Contig accession for this hit to genome 匹配到conting 序号
11 Position of RefSNP in contig coordinates 在conting中匹配到突变的位置
12 Position of RefSNP in chromosome coordinates (used to order report) 在染色体中匹配到突变的位置
Locations are specified in NCBI sequence location convention where:
x, a single number, indicates a feature at base position x
x..y, denotes a feature that spans from x to y inclusive.
x^y, denotes a feature that is inserted between bases x and y
13 Genes at this same position on the chromosome 匹配到的基因名字
18 Genotypes available in dbSNP for this RefSNP 基因型是否可知
1 = yes
0 = no

主要的突变与临床的关系的文件包含的内容:染色体,突变的位置,rs代号,突变过程,info。其中info包含了突变是否为同义突变;突变实在coding 区还是内含子或UTR;也包含了CLNSIG(0 - Uncertain significance, 1 - not provided, 2 - Benign, 3 - Likely benign, 4 - Likely pathogenic, 5 - Pathogenic, 6 - drug response, 7 - histocompatibility, 255 - other);CLNDSDB(Variant disease database name);CLNDBN(Variant disease name)

更多详细信息见:http://www.ncbi.nlm.nih.gov/variation/view/help/


3.dbSNP数据查询

SNP数据库的数据内容分为两类:一类是提交数据,即观察所得的原始序列变异;另一类是计算内容,即通过对原始提交数据的计算在每个“build”周期中产生的内容。
dbSNP现已并入NCBI的Entrez系统,能使用与其他Entrez数据库(如PubMed 和GenBank)相同的查询方式来查询数据。

目前页面更新了
搜索出来的结果界面如下:


dbSNP的快速查询

egfr示例

点击Switch to classic site可以转至原来的页面


4.dbSNP查询结果

首先会给出一个综合信息,RefSNP中给出了的物种,dbSNP数据库的版本号等信息;Allele中给出了突变类型,碱基变化情况等信息;HGVS Names给出了根据HGVS命名规则指定的突变信息。


4.1Map

这部分给出了SNP位点在不同版本的基因组上的位置信息,可以看到,对于hg19和hg38两个不同版本,位置差别还是挺大的。


4.2GeneView

SNP所在基因组的位置信息,所在转录本和蛋白序列上的位置信息,以及导致碱基改变和氨基酸改变的情况。

SNP在DNA序列上的位置,以及上下游的SNP。


4.3 ss ID

SNP提交人提交到数据库上信息,包括NCBI assay ID和Submitter SNP ID,该SNP是否被验证过,序列的方向,等位基因,上下游的序列,提交时间,更新时间,数据库版本号以及提交序列的类型。这部分可以看到rs号对应的多个ssID。

ss ID


4.4 SNP位点的fasta序列


4.5 Population Diversity

SNP在各个人群研究中的人群频率。

需要注意的是,该数据库将于2017年9月1日开始停止接收非人类物种的SNP提交信息,于2017年11月1日开始停止非人类物种的SNP查询功能,但是之前的所有非人类物种的SNP数据仍然可以在dbSNP数据库的FTP上下载。所有非人类物种的SNP信息提交可以上传到European Bioinformatics Institute (EBI) -European Variation Archive数据库。dbSNP 数据库的简单使用今天为大家介绍到这儿,以后再为大家推荐更多有用的数据库哦。


5.参考

https://en.wikipedia.org/wiki/DbSNP
http://blog.sina.com.cn/s/blog_751bd9440102w6rm.html
https://www.ncbi.nlm.nih.gov/projects/SNP/snp_ref.cgi?do_not_redirect&rs=rs712829

转载请注明出处!谢谢!

欢迎关注oddxix

有趣的灵魂等着你~
如果觉得写的不错记得点个赞哦~
感谢关注


上一篇下一篇

猜你喜欢

热点阅读