小教程收藏

[数据库] 数据获取网站1

2019-11-25  本文已影响0人  happyxhz

Oncomine

如果你获得了一个肿瘤差异表达基因,想研究其是否可作为某种肿瘤的潜在标志物和靶点,又怕做实验会得到阴性结果,浪费时间和金钱,这时候你就应该想到Oncomine数据库了。

参考网站:

GEO

GEO 全称:Gene Expression Omnibus database, 由NCBI创建并维护。

GEO几个组成部分(overview中的图片).png
GSM sample
GSE series
GPL platform
以上三个由uploader上传,而GEO dataset(GDS)和GEO profile由GEO的工作人员整理所得,可以看下这个搜索界面,图片来自OmicsClass
omicsclass.png

参考网站:
组学大讲堂
omicsClass
omicsClass2

CGATools

常用软件:
ABSOLUTE -- 用于CNV分析
MutSig -- 找出变异中的significant mutation gene

IGSR: The International Genome Sample Resource

千人基因组计划的数据,只有正常人的DNA测序情况(为了研究孟德尔遗传病)

参考视频:
鲮鱼不会飞bilibili

TCGA: The Cancer Genome Atlas

TCGA是国家癌症研究所(National Cancer Institute)和美国人类基因组研究所(National Human Genome Research Institute)共同监督的一个项目,旨在应用高通量的基因组分析技术,以帮助人们对癌症有个更好的认知,从而提高对于癌症的预防、诊断和治疗能力。2005年创办的时候主要聚焦在肺癌、脑癌和乳腺癌上,后来不断扩展。

多癌种、多组学、大样本量!!!
包含数据类型(其中一些分析结果是开放下载的,如甲基化结果、表达谱、CNV、biospecimen结果,还有一些结果需要实验室获得了NIH的授权才能给):

  1. DNA Exome
  2. mRNA-seq (transcriptome profiling)
  3. microRNA
  4. DNA methylation
  5. AFFY genotype and DNA copy number
    ...

TCGA的数据收录在GDC(Genomic Data Common Data Portal)中,网站首页截图如下,可以选择repository(下图2)访问所有数据,在左侧导航栏里选择需要的文件要求,或者case要求;也可以点击图中的身体部位,了解该原发部位癌症相关的研究、病例、基因、变异:

NCI-TCGA.png
Repository.png
tissue-eg.png

GDC中的数据主要有open和control两种类型(见下图),其中control的数据主要是individually identifiable,需要authorization方可下载。可以用GDC-client批量下载加入到购物车(Cart)中的Manifest文件(txt,该文件每行为一个下载目标的UUID,里面的文件、MD5、文件大小、状态),下载命令

./gdc-client download -m <manifest> -d <outdir>
GDC Data Portal.png

参考资料:
TCGA数据库简介
肿瘤研究不能不知道的TCGA数据库挖掘工具大全,TCGA再也不愁
生信人:简易TCGA下载工具
)

一个系列的,从windows下载RNA表达量文件(Transcriptome profiling,txt文件,open)、到表达量table整合、到差异表达分析。
TCGA数据库的利用(一)—— 数据下载!
TCGA数据库的利用(二)—— 数据处理!
TCGA数据库的利用(三)—做差异分析的三种方法!

下游在线分析:
TCGA在线分析工具大总结—金特达基因

cbioportal

cBioPortal.png

整合了历年来发表过的TCGA大文章的数据。主页如上图所示~
选择了一个研究点进去的相关信息,有些关于项目统计情况的图表,生存情况、病人情况(年龄、性别、种族balabala)统计、突变基因和CNA基因统计(基因统计有做MutSig求出q-value),右上角可以选择要研究的目标基因,eg.TP53(下图2),里面有关于基因的详细统计情况,变异(OncoKB, cosmic, CIViC)、共表达基因、基因上的癌症位点分布图等等。

hnsc-TCGA.png
TP53.png

cbioPortal还有一个小工具MutationMapper
用来画变异在gene上的分布图

参考资料:

生存分析相关:

总生存(Overall survival,OS)定义为:从随机化开始至(因任何原因)死亡的时间。被认为是肿瘤临床试验中最佳的疗效终点,当患者的生存期能充分时,它通常是首选终点。
无病生存期(Disease-free survival,DFS)定义为:从随机化开始至疾病复发或(因任何原因)死亡之间的时间。DFS 最常用于根治性手术或放疗后的辅助治疗的研究,目前是乳腺癌辅助性激素治疗、结肠癌辅助治疗、以及乳腺癌的辅助化疗的主要审批基础。

TCGA数据库生存分析的网页工具哪家强
生信技能树

SRA

The SRA is NIH's primary archive of high-throughput sequencing data and is part of the International Nucleotide Sequence Database Collaboration (INSDC) that includes at the NCBI Sequence Read Archive (SRA), the European Bioinformatics Institute (EBI), and the DNA Database of Japan (DDBJ). Data submitted to any of the three organizations are shared among them.
收录了很多项目的sequencing data,我个人比较建议去dbGaP、GEO、BioProject找好你需要的项目再去找相关样本SAMPLE ID,下载。

SRA Selector可选择的类型.png

GTEx

正常人不同组织的RNA表达情况,原始数据下载还是需要授权,前两天看的时候打不开网站,暂时先放一放。

ICGC: International Cancer Genome Consortium

ICGC.png

ICGC(International Cancer Genome Consortium,国际肿瘤基因组协作组),主要目标是全面阐明导致全球人类疾病负担的多种癌症中存在的基因组变化。
ICGC收集了50种不同癌症类型(或亚型)的肿瘤数据,其中包括基因异常表达,体细胞突变,表观遗传修饰,临床数据等。
ICGC包括亚洲、澳大利亚、欧洲、北美和南美17个行政区的89项目,包括25000个癌症基因组。
ICGC数据库是个国际肿瘤基因组协作组,是一个全球性的合作数据库,包含的样本是来自不同国家和地区;TCGA数据库是美国国立癌症研究所的数据库,只有来自美国的样本。

参考资料:
ICGC数据库挖掘入门简介2019-07
ICGC数据库如何下载癌症数据

上一篇下一篇

猜你喜欢

热点阅读