生信学习paper套路文章

Nature Communications|肾癌中的血栓

2020-04-27  本文已影响0人  概普生信

今天小编跟大家分享的是2月份发表在Nature Communications(IF:11.8,我又酸了!!!)杂志的一篇文章。我们都知道,肿瘤患者由于凝血功能紊乱,因此发生血栓的几率是非肿瘤患者的6倍,这使得血栓成了肿瘤患者的第二死因。这个研究做的呢就是基于一组中国肾透明细胞癌(ccRCC)患者的测序数据,来识别肿瘤血栓相关的特征。

Integrative genomic study of Chinese clear cell renal cell carcinoma reveals features associated with thrombus

整合中国透明细胞肾细胞癌基因组揭示血栓相关特征 

方法

样本测序

研究用到的152例ccRCC患者来自北京大学第三医院和中国人民解放军总医院,每个样本都是正常-肿瘤配对的,其中42名患者伴有血栓。接下来,就是对样本的全外显子组双端测序;获得的读段利用BWA比对到参考基因组hg19(下载自UCSC);然后用SAMtools 0.1.19进行排序合并;再使用Picard将读段固定配对、标记以及去重;最后利用GATK 2.1–8校准所有插入和缺失(INDELs)、碱基质量,SNV检测用到的是GATK中的MuTect模块(正常样本的SNV作为对照组),InDels检测用的是Unified Genotyper模块,以下过滤条件被用来确保检测的准确性:(1)覆盖突变位点的reads数不应少于10个,其中至少三个reads包含突变;(2)正常样本至少10x覆盖,并且最多一个read包含突变;(3)突变等位基因最大映射质量得分的最小值设为20;(4)突变等位基因频率至少为8%;(5)删除dbSNP 135中列出的突变,除非COSMIC有记录;(6)剔除NHLBI外显子组测序项目报告的突变。最后,Snpeff 3.0完成对SNVs和InDels的注释。

拷贝数(CN)分析和突变特征(MS)分析

首先配对样本的BAM文件输入Sequenza R v.2.1.1,考虑倍性和细胞结构来建模CNs,然后将处理结果输入GISTIC2,来识别显著扩增/缺失的区域。

作者利用sigProfiler方法(基于NMF,即非负矩阵分解)从96种突变亚型的突变谱中识别了潜在的MSs,然后使用余弦相似度距离来衡量这些MSs与COSMIC中MSs的相似性。Siganazyler方法用于结果的交叉验证,mSigAct方法用于评估患者是否具有AA(马兜铃酸,一种致癌物)突变特征。

驱动突变的识别和比较分析

MutSigCV用于识别SMGs(显著突变基因),保留Benjamin-Hochberg校正值 q<0.05的基因。此外,满足以下任一条件的定义为潜在驱动突变:(1)COSMIC数据库中与癌症相关的突变;(2)近期大群体的ccRCC测序研究识别出的基因突变;(3)KEGG癌症通路中的基因发生的突变。为了比较ccRCC基因的突变率,作者从TCGA下载了417 ccRCC患者的体细胞突变数据和临床信息。最后,该研究从基因水平评估了五个已知的ccRCC相关信号通路(TP53/细胞周期通路,PI3K-mTOR通路,SWI/SNF通路,组蛋白/染色质修饰通路和HIF-1信号通路)中的体细胞突变。

 

mRNA表达无监督聚类

对于测序得到的RNA reads,作者利用HISAT2比对到hg19参考基因组,用HTseq进行定量,Cuffquant和Cuffnorm 用于量化基因表达丰度并计算每个样本的FPKM值,DESeq2用来将counts值进行归一化并识别差异表达基因(p<0.05且|FC|>2)。接下来,就是将98个样本的表达数据转为非负矩阵并用非负矩阵分解法进行聚类,对TCGA数据也做了相同的聚类。

其他分析

为了分析BAP1和SETD2突变与存活之间的相关性,作者将TCGA中的417个患者样本分为基因突变型和野生型。利用Kaplan-Meier比较了特定基因状态下患者的存活情况,并采用对数秩检验进行显著性评估。

此外,clusterProfiler用来对基因表达数据做GSEA(基因集富集分析),以分析两种生物学状态下的基因是否存在显著差异。文中的所有统计分析都是通过R完成的,Wilcoxon秩和检验与Fisher精确检验用来分析中国ccRCC和TCGA ccRCC队列间的基因组差异,无监督聚类用以识别基因表达亚型。

研究结果

中国ccRCC群体的突变图谱

152名ccRCC患者的突变图谱如图1.a所示,包含12,012个SNVs和522个InDels。中国和TCGA两个群体的突变率接近,在中国患者群体中,有6个显著突变基因(SMGs)被识别出来,其中VHL, PBRM1, BAP1, TP53和KDM5C在之前的研究中已被定义为SMGs。突变频率排秩较高的基因依次为VHL, PBRM1, CSMD3, BAP1, SETD2和KDM5C,这些基因在两个数据集中的突变频率也相差无几,但是基因CSMD3和TMPRSS13在中国群体中的突变频率要显著高于TCGA队列(图1.c)。GISTIC分析识别出的SCNAs与TCGA群体一致,最常见的染色体臂突变为3p缺失和5q扩增,图1.a还列出了其他突变。

 图1. 中国ccRCC的突变图谱

中国ccRCC富集的AA特征

两个ccRCC患者群体的突变谱最大的差异是T > A转换(图2.a),NMF算法从外显子测序数据检测到了三个主要的突变特征,MS2和MS3分别对应COSMIC中的SBS5和SBS40。MS1对应SBS22,只在中国群体中观察到(约占比26.3%),SBS22已知与AA(马兜铃酸)暴露有关,然后作者根据AA特征是否显著(>13%)将患者分为两组,发现AA组的突变负荷以及CSMD3基因的突变频率均显著高于non-AA组,此外,突变负荷与AA比例呈正相关(图2.d-f)。

 图2. 中国ccRCC患者的突变特征

中国ccRCC与ccRCC-TT患者不同突变模式

根据是否伴有血栓,研究将152名中国患者分为ccRCC与ccRCC-TT两组。总的来说,ccRCC-TT患者的突变负荷较高,BAP1, CSMD3, TP53, SETD2, PTEN, PCLO, PIK3CA和VHL的突变频率也更高(图3.a-b),BAP1是已知的ccRCC肿瘤抑制因子,SETD2的失活则会促进肾癌的分支进化,其在胃癌细胞系中的过表达显著抑制细胞增殖、迁移和侵袭。在中国ccRCC患者和TCGA群体中,BAP1和SETD2的突变都是相互排斥的,而且生存分析的结果表明BAP1或SETD2突变的总体生存率(OS)更低。此外,ccRCC-TT患者在癌症相关通路中有更多的突变,尤其是染色质修饰通路。种种结果表明,具有BAP1或SETD2突变的ccRCC患者更容易发生血栓。

 图3. ccRCC与ccRCC-TT患者的不同突变模式

血栓与原发肿瘤的基因组比较

作者探讨了ccRCC-TT队列中原发性肿瘤与血栓之间的克隆关系,首先分析了非同义突变的区域分布,在原发性肿瘤和血栓中均发生的定义为共享突变,否则为特异性突变。样本的特异性突变的百分比变化很大,表明原发性肿瘤与血栓之间的基因组异质性程度不同(图4.b)。另外,两个队列的突变谱相似(图4.c)。

接下来,作者比较了原发性ccRCC肿瘤和正常肾组织的转录组,在肿瘤样本中识别出了2334个上调基因和2176个下调基因。通过GSEA,观察到了免疫应答和癌症相关通路的激活。

比较原发性肿瘤和血栓的基因表达谱发现,血栓中有25个基因显著上调,包括MMP9,SBSN,XPNPEP2和IL13RA2(图4.e),这些基因主要与细胞迁移和侵袭有关。在血栓显著富集的15条通路中,大部分与免疫反应有关(图4.f)。

 图4. 原发肿瘤和血栓之间的基因组差异

中国ccRCC基因表达亚型的特征

使用无监督聚类方法,作者在中国患者中识别出了四个基因表达簇,样本是根据TT状态而非肿瘤分期或AA特征进行聚类的,表明TT患者具有独特的转录组谱(图5.a)。簇m1和m2是两种TT亚型,m1簇表现为自噬通路的上调和CSMD3突变频率的升高,并且富集了较多的ARID1A和PIK3CA突变;m2簇中一些与DNA修复相关的基因上调,BAP1突变也更频繁,且富集了较多的SETD2突变;簇m3中CDKN2A的缺失和MDM4的扩增频率较高。此外,m1和m2均富集了与血管生成和上皮间充质转换(EMT)过程相关的基因集(图5.b)。

接下来,基于细胞类型特异性表达标志物,作者根据转录组数据推断了肿瘤微环境的组成。发现簇m1和m2表现出较高的CAFs丰度,但T细胞和B细胞较少(图5.b),我CIBERSOR的分析结果也表明了在簇m1和m2的肿瘤微环境中T细胞和B细胞较少。

 图5. 基因表达亚型

总结一下,该研究发现在中国ccRCC患者中CSMD3和TMPRSS13的突变率高于TCGA群体,拷贝数变异频率也较高;还观察到AA特征与中国ccRCC群体的突变负荷呈正相关;在ccRCC-TT患者中,BAP1与SETD2的突变频率明显升高,而且二者的突变是互斥的,可能因为它们均参与染色质重塑。好了,这篇文献就为大家解读到这,have a nice day!

上一篇下一篇

猜你喜欢

热点阅读