生信猿生信在线数据库生物信息

【数据库-1】1000 Genome Project 数据库

2018-11-15  本文已影响4人  oddxix

欢迎关注公众号:oddxix

一、简介


1000 Genomes Project(缩写为1KGP)于2008年1月启动,是一项国际研究工作,旨在建立迄今为止最详细的人类遗传变异目录。科学家计划在接下来的三年内使用新开发的技术对来自不同种族群体的至少一千名匿名参与者的基因组进行测序,这些技术更快,更便宜。 2010年,该项目完成了试验阶段,在“自然”杂志的一篇出版物中对此进行了详细描述。2012年,1092个基因组的测序在Nature出版物中公布。 2015年,“自然”杂志上的两篇论文报告了结果,项目的完成以及未来研究的机会。确定了许多罕见的变异,仅限于密切相关的群体,并分析了8个结构变异类别。

该项目将来自世界各地研究所的多学科研究团队联合起来,包括中国,意大利,日本,肯尼亚,尼日利亚,秘鲁,英国和美国。每一个都将为庞大的序列数据集和精细的人类基因组图谱做出贡献,这些图谱将通过公共数据库免费提供给科学界和公众。

1000 Genome Project 的目标是发现在人群中频率大于1%的变异位点,对来自不同人群的大量样本进行测序,识别到了许多的变异位点,为人类遗传变异的研究提供了一个综合的资源。

1000个基因组项目的人口样本的位置,每个圆圈代表最终版本中的序列数 基因数量和顺序的变化(A-D)在群体内和群体之间产生遗传多样性

人类基因组由大约30亿个DNA碱基对组成,估计携带约20,000个蛋白质编码基因。在设计研究时,该联盟需要解决有关项目指标的若干关键问题,如技术挑战,数据质量标准和序列覆盖。

整个项目划分为四个阶段,试点阶段和三个主要阶段。

(1)为了确定整个项目的最终设计,设计了三个试点研究,并将在项目的第一年内进行:

(2)主要阶段中只有第一阶段和第三阶段产生了数据,每个阶段数据的详细情况如下图所示

image

主要阶段包括三个项目:

来自4个群体的180个个体的低覆盖度全基因组测序
2个三人组(母亲 - 孩子)的高覆盖率排序
来自7个群体的697个个体的外显子靶向测序

结果发现,平均而言,每个人在注释基因中携带约250-300个功能丧失变体,并且先前涉及遗传性疾病的50-100个变体。

整个项目从2008年开始到2013年结束,最终的版本为2013年5月2日发布的数据, 包含了来自26个人群,共2504个样本的SNP分型结果。根据Fort Lauderdale principles原则,所有基因组序列数据(包括变体调用)随着项目的进展免费提供,1000G的数据是免费公开的,可以通过ftp下载得到。


二、Human genome samples

1000 Genomes项目遵循广泛的道德程序,然后将使用志愿捐赠者的样本。研究中将包括以下人群:尼日利亚伊巴丹(YRI)的约鲁巴人;日本人在东京(JPT);中国人在北京(CHB);来自北欧和西欧的犹他州居民(CEU); Luhya在肯尼亚Webuye(LWK);肯尼亚Kinyawa的马赛(MKK);意大利托斯卡尼(TSI);秘鲁利马的秘鲁人(PEL);休斯顿的古吉拉特印第安人(GIH);中国人在大都会丹佛(CHD);洛杉矶墨西哥人(MXL);和美国西南部的非洲血统人士(ASW)。

image

三、FTP下载

FTP 结构(README.ftp_structure) 千人基因组计划有两个主要的 ftp 站点镜像: ftp://ftp.1000genomes.ebi.ac.uk
ftp://ftp-trace.ncbi.nih.gov/1000genomes/

image image

1.在顶层有 6 个目录, 分别是 data、 release、 sequence_indices、 alignment_indices、 technical 和 changelog_details。还有一个 pilot_data 目录,它包含来自初步研究 (pilot study)的数据,以及Index files。

.stats 文 件 名 中 包 含 测 序 策 略 名 称 (exome,low_coverage) , 这 些 名 称 包 含 summary 信息的一个子集(只与 exome/low_coverage 信息有关) ,而 summary 信 息包含在 YYYMMDD_sequence.index.stats 中。 例如: 20101123.sequence.index.exome.stats 20101123.sequence.index.low_coverage.stats .cvs 统 计 文 件 给 出 了 来 自 sequence.index 文 件 的 Population, Center 和 Sequencing platform 发生的增量变化。 例如:文件 20101101_ 20101123.exome_ stats.csv 20101101_ 20101123.low_ coverage_stats.csv 给出了 2010110.sequence.index 文件和 20101123.sequence.index 文件中列出数据的摘要信息差异。

  • 文件名以来自 Corelli/Hapmap 的 sample 名开始。
  • 如果比对过程已经利用染色体 split,那么文件命中会包含染色体名。
  • 测序技术为 next, ILLUMINA for illumina, LS454 for 454 and SOLID for SOLiD。
  • the aligner used 名字缩写(bwa, bfast 等)。
  • population 缩写为三个字符。

2.顶层还包含两个主要的 index 文件:
ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/sequence.index
ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/alignment.index

序列数据(README.sequence_data) 这一 readme 文件描述了 ftp 站点上的序列数据, 它是如何处理以及序列数据中哪 些信息是可用的。 目录结构和 sequence index 文件: 所有的序列数据都是 fastq 格式, 它给出了一段 序列以及每个 read 的质量字符串。 序列文件存在/data/XXXXXX/sequence_read 目录中( XXXXXX 代表样本名, this should be in the form or coriell sample names HGXXXXX or NAXXXXX)。与 meta 数据相关的一个特殊文件(包含 meta 数据 md5sum)可以在 sequence.index 文件中找到。这是一个 tab 分割的文件,它的每一列都包含一块不同的 meta 信息。

参考:

https://en.wikipedia.org/wiki/1000_Genomes_Project
https://mp.weixin.qq.com/s/R4vvQW8mg81ZJxTifTqOMw
https://mp.weixin.qq.com/s/KHlWWMNOkFJqBq4DZqg7pQ
https://www.ncbi.nlm.nih.gov/variation/tools/1000genomes/

转载请注明出处

欢迎关注公众号:oddxix

上一篇下一篇

猜你喜欢

热点阅读