生不了啦文章套路TCGA数据挖掘

第35周-泛癌研究之使用MutSigCV看肿瘤突变异质性、拷贝数

2018-11-22  本文已影响117人  小梦游仙境

泛癌研究之使用MutSigCV看肿瘤突变异质性

发表于June 2013:Mutational heterogeneity in cancer and the search for new cancer-associated genes

作者团队主要是开发了一款算法软件:MutSigCV

We apply MutSigCV to exome sequences from 3,083 tumour–normal pairs and discover extraordinary variation in mutation frequency and spectrum within cancer types, which sheds light on mutational processes and disease aetiology, and in mutation frequency across the genome, which is strongly correlated with DNA replication timing and also with transcriptional activity.

泛癌研究之拷贝数变异

发表于 September 2013 Pan-cancer patterns of somatic copy number alteration

对拷贝数的分类整理

We identified a total of 202,244 SCNAs, a median of 39 per cancer sample, comprising 6 categories:

By amplifications and deletions, we refer to copy number gains and losses, respectively, of any length and amplitude.

使用 ABSOLUTE分析肿瘤纯度

这款软件比较老旧了。

统计学显著的拷贝数区域

把经过肿瘤纯度矫正后的拷贝数情况输入到GISTIC软件,参数包括:-

泛癌研究之使用MutSigCV看肿瘤突变异质性

发表于 Nov 2015: Clonal status of actionable driver events and the timing of mutational processes in cancer evolution

单点取样研究肿瘤异质性的思路比多区域取样的思路要出现的更早,尽管单点取样来评估肿瘤异质性存在一定的
局限性,但是目前来说,世界上最大最全的肿瘤基因组数据库TCGA和ICGC,包括之前研究人员的测序数据,大
部分都是单点取样,所以单点取样研究肿瘤异质性有很大的样本数据优势。

数据选择

样本选择:TCGA数据库BLCA, BRCA, COAD, GBM, HNSC, KIRC, LUAD, LUSC, and SKCM九种肿瘤病人。

共涉及到 2694 tumors , 总共 516,672 somatic mutations

分析要点

\1.肿瘤进化过程中基因所扮演的不同角色(图1)。
a. 观察到大部分肿瘤里面driver基因相比passenger基因更倾向于主克隆状态,除了肾癌。
b. 观察到在超过30个病人中,对于在同一个病人的同一个基因或是同种功能的不同基因存在多个不同的亚 克隆突变,提供了肿瘤平行进化的证据,在同一个肿瘤里面不同的亚克隆相对独立地出现同一个通路的

紊乱。
\2. 肿瘤进化过程中突变特征的动态变化(图2)。

a. 揭示在不同的肿瘤类型中,代表不同生物学功能的突变特征会随着肿瘤的进化而出现变化。

\3. 肿瘤治疗相关基因的突变异质性(图3)。

a. 根据TARGET和DoCM两个肿瘤治疗相关基因数据库,通过比较这些关键基因在九种肿瘤类型里面的亚 克隆突变情况和所影响的关键生物学通路,揭示一些关键基因不仅在肿瘤起始过程中扮演重要作用,同
时在后续的分支进化中也会影响肿瘤的发生发展,强调了临床靶向治疗时需要考虑肿瘤的亚克隆情况的
重要性。

从以上结果来看,单点取样研究肿瘤异质性,尽管会由于取样的局限把亚克隆错误地评估为主克隆情况,低估该
肿瘤的实际异质性程度,但是在一定程度上,还是可以反应该肿瘤进化过程中的突变扮演的角色,在没有多点取
样的条件下,选择单点取样,利用样本量优势来研究肿瘤进化也不失为一个方法。

泛癌研究之肿瘤突变全景

发表于 October 2013 Mutational landscape and significance across 12 major cancer types

pan-cancer系列之肿瘤纯度

发表于: 2015 Dec 4. doi: 10.1038/ncomms9971

众所周知,肿瘤样品纯度是很有限的,包括围绕在肿瘤细胞周围的各种免疫细胞,还有肿瘤微环境其它细胞。

作者团队在这里对TCGA计划的21种癌症的超过10000个样本系统性的分析了肿瘤纯度

数据来源

We obtained gene expression profiles (RNA-seqV2), DNA methylation profiles (HumanMethylation450) and immunohistochemistry (IHC) analysis for 9,364 tumour samples and 1,958 adjacent normal samples across 21 solid tumour types from the TCGA repository

比较4种估算肿瘤纯度的方法

这里采用4种方法:

三种DNA, RNA and methylation-based方法估算的肿瘤纯度一致性比较高,但是都跟IHC的差异比较大。

结果文件都是在:Tumor purity estimates for TCGA samples. Tumor purity estimates according to four methods and the consensus method for all TCGA samples with available data.

Click here to view.(540K, xlsx) 下载后可以自行作图进行可视化,粗略看起来肿瘤纯度平均值在0.8左右,如下图:

image

不同肿瘤纯度方法的归一化

全称是:consensus measurement of purity estimations (CPE)

这里的归一化很简单, CPE is the median purity level after normalizing levels from all methods to give them equal means and s.d.'s (75.3±18.9%).

后续分析都使用的是CPE值,具有替代性。

然后作者通过分析发现 median purity levels and median mutational burden 具有非常好的相关性,如下:

image

肿瘤纯度和其它临床信息的关联性

这里作者这里了722种临床信息,其中299种是不同肿瘤种类特有的,最后发现sex, age, ethnicity, alcohol use and smoking 这些指标跟肿瘤纯度无关,不过只要是统计分析,或多或少都会得到一些显著性指标的,作者毫不例外的在正文描述了那些显著性的。

当然,少不了的是生存分析结果。

校正肿瘤纯度对其它NGS组学分析结果的影响

比如之前的表达数据的聚类,看看是否聚类结果其实是受到了肿瘤纯度的摆布。

是否有些基因的表达量是跟肿瘤纯度相关的。

是否肿瘤纯度会影响差异分析结果,所以作者使用DESeq2包来引入纯度这个变量进行校正。

可以参考去除batch effect的用法,这里的肿瘤纯度这个连续变量可以根据高低进行分组设置为离散变量即可。

使用limma包的removeBatchEffect来处理。

countData: 表达矩阵

colData: 样品分组信息表

design: 实验设计信息,batchconditions必须是colData中的一列

dds <- DESeqDataSetFromMatrix(countData = data,
        colData = sample,  design= ~ batch + conditions)

dds <- DESeq(dds)
## 数据集小于30 -> rlog,大数据集 -> VST。
rld <- rlog(dds, blind=FALSE)
rlogMat <- assay(rld)
rlogMat <- limma::removeBatchEffect(rlogMat, c(sample$batch))

#VST, remove batch effect, then plotPCA:
vsd <- vst(dds)
plotPCA(vsd, "batch")
assay(vsd) <- limma::removeBatchEffect(assay(vsd), vsd$batch)
plotPCA(vsd, "batch")

代码比较简单,思路最重要。

DESeq2为count数据提供了两类变换方法,使得不同均值的方差趋于稳定:regularized-logarithm transformation or rlog(Love, Huber, and Anders 2014)和variance stabilizing transformation(VST)(Anders and Huber 2010)用于处理含有色散平均趋势负二项数据。

结果如下:

image

此文章完全是数据分析,值得学习。

泛癌研究之肿瘤驱动突变

发表于October 2013 Comprehensive identification of mutational cancer driver genes across 12 tumor types

作者提供数据分析得到 291个高置信度的肿瘤驱动突变基因 acting on 3,205 tumors from 12 different cancer types.

其实主要是测试4种软件:

(文章转自jimmy的2018年阅读文献笔记)

生信基础知识大全系列:生信基础知识100讲
史上最强的生信自学环境准备课来啦!! 7次改版,11节课程,14K的讲稿,30个夜晚打磨,100页PPT的课程。
如果需要组装自己的服务器;代办生物信息学服务器
如果需要帮忙下载海外数据(GEO/TCGA/GTEx等等),点我?
如果需要线下辅导及培训,看招学徒
如果需要个人电脑:个人计算机推荐
如果需要置办生物信息学书籍,看:生信人必备书单
如果需要实习岗位:实习职位发布
如果需要售后:点我

上一篇下一篇

猜你喜欢

热点阅读