生物信息学scRNA-seqRNA-seq

3大数据库超2万RNA-seq数据重新统一处理

2019-04-02  本文已影响222人  因地制宜的生信达人

3大数据库超2万RNA-seq数据重新统一处理

各种大型计划产出的RNA-seq数据资源已经非常丰富了,但是大家都想把多个数据库联合起来分析,就不得不面对批次效应这个问题,所以UCSC团队就使用统一的流程把这些数据重新处理了,在亚马逊云上,一个样本花费1.3美元。

发表在:Nature Biotechnology publication: https://doi.org/10.1038/nbt.3772

3大数据库是:

  1. The Cancer Genome Atlas (TCGA)
  2. Genotype-Tissue Expression (GTEx)
  3. Therapeutically Applicable Research To Generate Effective Treatments (TARGET)

而且还提供网页工具供查询使用:

Differential gene and isoform expression of FOXM1 transcription factor in TCGA vs. GTEx

使用的数据处理流程

如下图: CutAdapt was used for adapter trimming, STAR was used for alignment, and RSEM and Kallisto were used as quantifiers.

img

流程介绍

如果你对RNA-seq数据处理流程有意外,直接去看我长达74个小时全套生物信息学入门视频:生信技能树视频课程学习路径,这么好的视频还免费!

参考基因组选择

注释文件的选择

软件参数的选择

可以看到,上面的3大要素, 就是我五年前在 生信菜鸟团博客写教程的基本规律。

Raw data

Nature Publication Supplementary Note 7 – Data Availability

Submitter sample ID to Xena sample ID mapping

TCGA mapping

GTEx mapping

TARGET mapping

最后公布的可供下载的数据集

其中TCGA TARGET GTEx 3大数据库) (共有 13 datasets)

cohort: TCGA TARGET GTEx

表达矩阵样本量很可观

phenotype

somatic mutation (SNP and INDEL)

transcript expression RNAseq

上一篇下一篇

猜你喜欢

热点阅读