【数据库-1】1000 Genome Project 数据库

2018-11-15 本文已影响4人 oddxix

欢迎关注公众号：oddxix

一、简介

1000 Genomes Project（缩写为1KGP）于2008年1月启动，是一项国际研究工作，旨在建立迄今为止最详细的人类遗传变异目录。科学家计划在接下来的三年内使用新开发的技术对来自不同种族群体的至少一千名匿名参与者的基因组进行测序，这些技术更快，更便宜。 2010年，该项目完成了试验阶段，在“自然”杂志的一篇出版物中对此进行了详细描述。2012年，1092个基因组的测序在Nature出版物中公布。 2015年，“自然”杂志上的两篇论文报告了结果，项目的完成以及未来研究的机会。确定了许多罕见的变异，仅限于密切相关的群体，并分析了8个结构变异类别。

该项目将来自世界各地研究所的多学科研究团队联合起来，包括中国，意大利，日本，肯尼亚，尼日利亚，秘鲁，英国和美国。每一个都将为庞大的序列数据集和精细的人类基因组图谱做出贡献，这些图谱将通过公共数据库免费提供给科学界和公众。

1000 Genome Project 的目标是发现在人群中频率大于1%的变异位点，对来自不同人群的大量样本进行测序，识别到了许多的变异位点，为人类遗传变异的研究提供了一个综合的资源。

1000个基因组项目的人口样本的位置，每个圆圈代表最终版本中的序列数

基因数量和顺序的变化（A-D）在群体内和群体之间产生遗传多样性

人类基因组由大约30亿个DNA碱基对组成，估计携带约20,000个蛋白质编码基因。在设计研究时，该联盟需要解决有关项目指标的若干关键问题，如技术挑战，数据质量标准和序列覆盖。

整个项目划分为四个阶段，试点阶段和三个主要阶段。

（1）为了确定整个项目的最终设计，设计了三个试点研究，并将在项目的第一年内进行：

第一个试点旨在对低覆盖率（2x）的3个主要地理群体的180个人进行基因分型。
第二项初步研究，两个核心家族（父母和成年子女）的基因组将进行深度覆盖（每个基因组20倍）的测序。
第三项试点研究涉及对1000名深度覆盖（20x）的1000个基因的编码区（外显子）进行测序。

（2）主要阶段中只有第一阶段和第三阶段产生了数据，每个阶段数据的详细情况如下图所示

image

主要阶段包括三个项目：

来自4个群体的180个个体的低覆盖度全基因组测序
2个三人组（母亲 - 孩子）的高覆盖率排序
来自7个群体的697个个体的外显子靶向测序

结果发现，平均而言，每个人在注释基因中携带约250-300个功能丧失变体，并且先前涉及遗传性疾病的50-100个变体。

整个项目从2008年开始到2013年结束，最终的版本为2013年5月2日发布的数据, 包含了来自26个人群，共2504个样本的SNP分型结果。根据Fort Lauderdale principles原则，所有基因组序列数据（包括变体调用）随着项目的进展免费提供，1000G的数据是免费公开的，可以通过ftp下载得到。

二、Human genome samples

1000 Genomes项目遵循广泛的道德程序，然后将使用志愿捐赠者的样本。研究中将包括以下人群：尼日利亚伊巴丹（YRI）的约鲁巴人;日本人在东京（JPT）;中国人在北京（CHB）;来自北欧和西欧的犹他州居民（CEU）; Luhya在肯尼亚Webuye（LWK）;肯尼亚Kinyawa的马赛（MKK）;意大利托斯卡尼（TSI）;秘鲁利马的秘鲁人（PEL）;休斯顿的古吉拉特印第安人（GIH）;中国人在大都会丹佛（CHD）;洛杉矶墨西哥人（MXL）;和美国西南部的非洲血统人士（ASW）。

image

三、FTP下载

FTP 结构(README.ftp_structure) 千人基因组计划有两个主要的 ftp 站点镜像： ftp://ftp.1000genomes.ebi.ac.uk
ftp://ftp-trace.ncbi.nih.gov/1000genomes/

image

1.在顶层有 6 个目录，分别是 data、 release、 sequence_indices、 alignment_indices、 technical 和 changelog_details。还有一个 pilot_data 目录，它包含来自初步研究（pilot study）的数据，以及Index files。

1.data：data 目录包含主要工程的每个个体的子目录，每个单独的子目录也包含一系列的子目录--包含不同的数据集，例如 sequence reads 和 sequence alignments 等。 individual id 或 coriell sample names /technical/working/20140502_ sample_ summary_ info/以及/technical/working/20130606_ sample_ info/中有 individual id 与 population 对应的信息。
2.release：包含日期命名的目录，这些目录又包含发布于那个日期的分析结果集，并且也包含 readme 用于解释这些数据集是怎么产生的。release 目录以后（此 readme 文件创建日期为 20110404 ）将基于 YYYYMMDD.sequence.index（这一文件保存在 ftp/sequence_indices/目录下）中的日期格式进行命名。在这些 YYYYMMDD 目录中的 SNP 和 indel calls 等是基于 YYYYMMDD.sequence.index 文件所列出的数据比对产生的。例如：目录 ftp/release/20100804/中包含的 SNP 和 indels calls 的发布版本是基于 ftp/sequence_indices/20100804.sequence.index 文件产生的。
3.technical：这一目录包含许多的子目录--包含诸如模拟产生的数据集或方法开发产生的interm 数据集文件等。注意：technical/working 目录--这一目录包含的数据有 experimental status（未公开发表），适合内部项目使用。请小心使用。
4.sequence_indices：这个目录包含所有先前产生的 sequence.index 文件。每个文件以 YYYYMMDD 开头，表明了它的发布日期。出现在主要项目 bam 文件名字中日期将这些 bam 文件连接到了相应的序列，因为 sequence.index 文件名中包含相同的日期。最近的文件也应该与 ftp/sequence.index 文件相匹配。例子：NA10851.unmapped.ILLUMINA.bwa.CEU.low_coverage.20101123.bam 文件被创建是使用了 ftp/sequence_indices/20101123.sequence.index 文件中列出的 NA12878 low_coverage sequence 文件，每个 sequence.index 文件都伴随着两种类型的统计文件（stats.cvs 和 .stats），每个 YYYMMDD_sequence.index.stats 文件包含 summary 信息--关于序列数据的 Study/Population/Center/Sample coverage 统计量。

.stats 文件名中包含测序策略名称 (exome,low_coverage) ，这些名称包含 summary 信息的一个子集（只与 exome/low_coverage 信息有关），而 summary 信息包含在 YYYMMDD_sequence.index.stats 中。例如： 20101123.sequence.index.exome.stats 20101123.sequence.index.low_coverage.stats .cvs 统计文件给出了来自 sequence.index 文件的 Population, Center 和 Sequencing platform 发生的增量变化。例如：文件 20101101_ 20101123.exome_ stats.csv 20101101_ 20101123.low_ coverage_stats.csv 给出了 2010110.sequence.index 文件和 20101123.sequence.index 文件中列出数据的摘要信息差异。

5.alignment_indices：这个目录包含所有先前产生的 alignment.index 文件，每个文件开头的 YYYMYDD 表明所基于的 sequence.index 文件的比对。最近的文件也应该与 ftp/sequence.index 文件相匹配。你可能也会发现 stats 文件，例如 20101123.alignment.index.bas.gz These contain all the .bas files for the bam files in the release concatenated into a single file. 也有 stats 文件，如 20101123_ 20100901.alignment_ stats.low_ coverage.csv，这种类型的文件包含与 sequence_ indices 目录中的 stats 文件类似的信息。
6.changelog_details：为了保证主要的 root-level CHANGELOG 可读性和滚动性，任何 ftp 站点内容的改变会被总结在此目录中。这些文件的命名可反映了 when 和 what 改变发生了，例如'new', 'moved', 'replacement' or 'withdrawn'。例子： changelog_details_ 20110216_ new changelog_ details20110216replacement changelog_ details_ 20110216_ withdrawn changelog_ details_ 20110216_ moved。
7.pilot_data：这代表一个冻结版本的 pilot 数据。它包含了与主要 ftp 目录具有相同目录形式大部分的目录。
8.The analysis group of the sequence, this reflects sequencing strategy - sequence.index 文件的发布日期包含序列文件的列表用于构建 alignment 文件。（对于 ftp/pilot_data 中的 alignment 文件 SLX for illumina, 454 for 454 and SOLID for SOLiD。 The SRP is the study identifier, 31 is pilot1 low coverage, 32 is pilot2 high coverage, 33 is pilot3 gene targetted sequencing。）如果文件名包含“ unmapped ” ， bam 代表与个体相关的 reads 没有 map the reference. 每个 bam 文件都伴随一个 index 文件（.bai）和一个统计文件（.bas）可以查看 ftp/README.alignment_data 文件中找到关于.bas 文件的描述。所有比对都与 the reference（ftp/technical/reference/）进行了比较。 pilot/data alignments are against the NCBI Build 36 reference. Main project alignments are against the GRCh37 reference.

文件名以来自 Corelli/Hapmap 的 sample 名开始。

如果比对过程已经利用染色体 split，那么文件命中会包含染色体名。

测序技术为 next, ILLUMINA for illumina, LS454 for 454 and SOLID for SOLiD。

the aligner used 名字缩写（bwa, bfast 等）。

population 缩写为三个字符。

Index files：千人基因组产生的数据量是前所未有的。为确保所有数据都能易于定位到最近更新的序列和比对文件，因此有了 index files 。 ftp/sequence.index 文件和 ftp/alignment.index 文件。这些文件的格式说明在： ftp/README.sequence.index 文件和 ftp/README.alignment.index 文件中。这些 index files 应该可以为你提供足够的信息下载文件 subsets(基于 study, individual or technology)。它们也包含文件的 md5s。主要项目的比对文件名中也包含相似的信息： data/NA12878/alignment/NA12878.chromY.SOLID.bfast.CEU.high_coverage.20100 125.bam data/NA12878/alignment/NA12878.chrom20.LS454.ssaha2.CEU.exon_targetted.201 00311.bam data/NA12878/alignment/NA12878.unmapped.LS454.ssaha2.CEU.exon_targetted.20 100311.bam data/NA12878/alignment/NA12878.nonchrom.ILLUMINA.bwa.CEU.exon_targetted. 20100311.bam 文件名组分：

2.顶层还包含两个主要的 index 文件：
ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/sequence.index
ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/alignment.index

序列数据（README.sequence_data）这一 readme 文件描述了 ftp 站点上的序列数据，它是如何处理以及序列数据中哪些信息是可用的。目录结构和 sequence index 文件：所有的序列数据都是 fastq 格式，它给出了一段序列以及每个 read 的质量字符串。序列文件存在/data/XXXXXX/sequence_read 目录中（ XXXXXX 代表样本名， this should be in the form or coriell sample names HGXXXXX or NAXXXXX）。与 meta 数据相关的一个特殊文件（包含 meta 数据 md5sum）可以在 sequence.index 文件中找到。这是一个 tab 分割的文件，它的每一列都包含一块不同的 meta 信息。

参考：

https://en.wikipedia.org/wiki/1000_Genomes_Project
https://mp.weixin.qq.com/s/R4vvQW8mg81ZJxTifTqOMw
https://mp.weixin.qq.com/s/KHlWWMNOkFJqBq4DZqg7pQ
https://www.ncbi.nlm.nih.gov/variation/tools/1000genomes/

转载请注明出处

欢迎关注公众号：oddxix

【数据库-1】1000 Genome Project 数据库

一、简介

二、Human genome samples

三、FTP下载

参考：

猜你喜欢

热点阅读