TCGA数据分析生信分析流程生信精读文献

小样本多组学分析怎么发12分的Nature子刊?(多组学文献精读

2019-03-02  本文已影响55人  liu_ll
pre:

(最近在准备托福考试,出现的英文比较多,纯手打,为了训练一下,祝我好运呀~)

----------------------------------------------------分割线------------------------------------------------
文章关键词:肝癌,DNA甲基化,组蛋白修饰,转录组

  近年来联合多组学分析已经成为表观领域的研究热点,利用单一组学数据分析致病因子的局限性愈发显著。通过多组学联合分析将有助于人们更加系统全面的认识肿瘤的生物学行为,进一步为寻找有价值的肿瘤标志物和探讨肿瘤相关机制提供新的线索。今年来多组学在肺癌,胃癌等癌症的研究当中取得了不错的研究进展。这篇NC文章聚焦在了肝癌这个肿瘤上面,看看组学分析能够得到什么有意思的发现呢?
  简单介绍一下今天的主角:HCC,肝细胞癌(Hepatocellular carcinoma HCC)是常见的恶性肿瘤类型之一,在全球癌症死亡原因中排名第二,大约90%的原发肝癌都属于肝细胞癌。中国是HCC患病率最高的地区,每年约50%以上的新诊断和死亡的病例都发生在中国,并且我国被诊断为肝癌的患者平均年龄为55-59岁,比国外肝癌低发率国家要早近20年[1,2,3]。

一:Summary

  作者从以转录组的数据入手,结合基因组数据和表观数据进行差异分析。看能不能找到与肝癌的发生发展密切相关的异常基因或者是通路。
主要研究思路是:
  1.分析64个肝癌病人样本中,DNA甲基化(MET cor)和DNA拷贝数变异(CNV cor),探究两者是否在肝癌发病上存在“共调控”作用。
  2.进一步研究,能否根据 MET cor和CNV cor进行肝癌分型,在TCGA数据库中进行验证(NMF算法)
  3.筛选对HCC侵袭性影响最大的基因变异BAP1,用 Huh7细胞转染-实验进行验证


In this paper abstract, the author gives these results:
  1: The frequencies of the aberrancies of the DNA copy-number-correlated (CNV cor)expression genes and the methylation-correlated expression(METcor) genes are co-regulated significantly.
  (异常的MET和CNV的基因有些显著的共调控作用)
  2:Multi-omics integration of the CNVcor and METcor genes reveal three prognostic subtypes of hepatocellular cacinoma. which can be validated by an independent data.
  (多组学整合分析异常的CNV/DNA甲基化相关基因揭示了肝癌的三个亚型,并且得到了独立数据的验证)
  3:The most aggressive subtype expression stemness genes has frequent BAP1 mutations, implying its pivotal role in the aggressive tumor progression.
  (在三个亚型中侵袭性最高的亚型中发现BAP1基因突变,对肿瘤的侵袭有着至关重要的作用)

带着问题去思考:
1:Why they choose HCC?
为什么选择肝癌?
2:How to find the high correlation between CNVcor and DNAcor?
作者是找到这些异常的DNA甲基化基因和拷贝数变异的基因的?
3:How to prove this correlation mechanism?
如何去如何起证明这些基因的共调控作用呢?既然共调控,调控机制是什么?(或者是说如何去联系DNA甲基化和拷贝数变异的?)
4:How to classify the carcinoma subtype? and how to show the result?
对肝癌进行分型是如何分的?分类结果如何显示呢?怎么验证我的结果(毕竟自己的样本量很小)
5:How to find the most significant gene which has the pivotal role in tumor aggression?
如何筛选功能最显著表达差异的基因(如何筛选到BAP1?)既然我根据变异进行了分型,那么在这当中贡献最大是哪个基因,怎么筛选?

二:Introduction

1:DNA methylation and CNV aberration or mutation occur in cancer progression.
(DNA甲基化和拷贝数变异发生在肿瘤的侵袭中)
2:As HCC, genomic profiling studies demonstrated the enormous heterogeneity of genomic and epigenomic deregulation.
(肝癌是重大公共卫生问题,中国尤甚;同时对于肝癌来说,基因组和表观组的异质性大)
3:In previous study, several key cancer-related gene such as IGF2 UHRF1 regulation function by DNA methylation
(在之前的研究中,一些癌症相关的基因通过DNA甲基化去发挥功能作用,如 IGF2 UHRF1这些基因)
4:The transcription has influenced by the CNV and DNA methylation , whether it has co-correlation is unclear .
(转录受到DNA甲基化和拷贝数变异的影响,既然都可以影响转录,那么他们之间有没有协同作用呢?这方面的研究还不是很清楚)
5:Genomic and epigenomic profiles of DNA copy-number variation (CNV), DNA methylation (MET), and gene expression (EXP) were obtained from 64 HCC patients
(一共用了64个肝癌的CNV,MET,EXP样本信息)


三:Result

3.1 Transcriptome deregulation by DNA copy number or methylation

(DNA甲基化和拷贝数变异会导致转录失调)


Transcriptome deregulation by DNA copy number or methylation.png

a. 分别计算DNA甲基化和mRNA表达的相关性(蓝色),CNV和mRNA表达的相关系(红色),然后发现DNA甲基化是和表达呈负相关的,而CNV和表达呈正相关(因为DNA甲基化相关性系数分布偏左边为-0.153,反之~)

b.在a图的基础上,需要找到差异显著的那些基因,然后|r|>0.5,也就是红圈圈的位置,然后发现了CNVcor有813个,METcor有321个。把这几个基因集进行求交集发现了只有24个overlap. a图关注的点

c. CNV基因显示出了它的一个基因组偏好性,比较集中在8号染色体上。DNA甲基化的基因在全基因组上分布没有偏好性

d.(左图) 发现DNA甲基化的基因一般都分布在inter-genic(基因间区)而不是CpG岛。(右图)发现DNA甲基化更偏向于发生在基因body区域,推测开放区域的甲基化可能会导致转录异常,芯片中CpG岛的表达方式是N_shore,N_shelf等


ps:拿到这些基因做了一个富集分析,发现CNV差异基因富集在蛋白相关的信号通路上,甲基化的差异主要富集在炎症反应等上面(感觉富集到的结果可能做不出什么文章。然后继续往下看)


富集分析结果

e:因为已经拿到了60多个病人样本,计算每个病人样本的CNVcor上调和下调的基因个数,METcor上调和下调的个数。然后画出e的柱状图。(不同颜色代表上下调的基因)下面那个热图的意思就是说红色的上调的,蓝色的是下调的基因位点。

f:去寻找CNVcor上调和下调基因和METcor上调和下调的相关性。每个点代表着一个病人样本。横纵坐标代表这个病人的差异基因的个数,然后做了一个相关性分析。

Q:这整个一个大Figure说明了什么?
A:个人认为是确定DNA甲基化和拷贝数变异适合转录组异常相关的,至于有多么相关,数据给出信息。

3.2 Molecular subtype based on CNVcor and METcor genes

对于CNV和MET差异表达基因可以用于肺癌的分子分型

Identification of molecular subtypes of HCC using CNVcor and METcor genes.
a,b:非负矩阵分解(Non-negative Matrix Factorization,NMF)算法【这是无监督学习算法的一种,和k-mean,分层聚类等目的一样,为了把这些样本进行分类。感兴趣的可以看看:https://blog.csdn.net/google19890102/article/details/51190313】对CNV和MET基因进聚类,然后得到的结果,OS 是overall survival(总体生存时间),TTR是time to tumor recurrece(肿瘤复发时间)。发现对于CNV分类来说可以把这些样本分成3类,用MET分类的话可以分成4类。而且从分类效果OS,TTR来看CNV的分类效果更好。

[iCluster,:一种可以利用R包进行分类的分类方法,详情可以见:http://www.bioconductor.org/packages/devel/bioc/html/iClusterPlus.html]
c:热图显示了iCluster分析鉴定的亚型表达模式。使用NMF聚类方法鉴定的CNVcor或METcor基因的亚型的比较,每个亚型鉴定的结果用彩色条形标记。每个亚型中CNVcorup、CNVcordown、METcorup、METcordown 基因的异常表达频率如图(最底下)所示。中间的是热图。

d:用K-Mean的方法画出利用icluster方法分类的这种类型的OS,TTR曲线,看看分类效果。


【我们还比较了iCl1,iCl2和iCl3亚组的临床病理特征,发现iCl1肿瘤比iCl2或iCl3的侵袭性更强(P = 0.002,表1)。 其他临床特征在亚组之间没有差异。 这些结果与分子亚型的独特侵袭性特征一致。 基于这些发现,我们建议CNVcor和METcor基因的综合分析可以识别分子亚型,每个分子亚型具有与转录失调相关的基因组和表观基因组特征的不同组合,与不同的预后结果相关。】

Q:得到了这个分类结果,相当于一个训练集,那么如何验证这个训练集的分类效果呢?
A:利用数据库,大样本库的数据进行验证

3.3 Validation of the molecular subtypes in an TCGA data set
Validation of the molecular subtypes in an TCGA data set.png

这个目的就是为了在大样本库中重复他们之前结果,用的数据是TCGA的数据
a:观察到CNV和转录组之间的相关系数的总体分布向右偏,MET左偏,

b,c:寻找差异的基因,求交集,发现CNVcor基因在8号染色体进行富集和之前一致

d.e: METcor基因在open sea区域和gene body域比在CpG岛和TSS区域富集更频繁 此外,异常CNVcor和METcor基因的频率之间的相关性也得到验证,相关性0.82.

f,g :分类效果,C1组DNA拷贝数和DNA甲基化畸变率最高,C3组最低

h:OS,RFS分析图

Q:发现利用CNV和DNA甲基化是可以用作分子分型的,大样本也重复出来了结果,接下来如何分析呢?如何去找DNA甲基化和拷贝数变异的关系呢?

3.4 Coordinated aberrations of DNA copy numbers and methylation

整合DNA甲基化数据和拷贝数变异数据


Coordinated aberrations of DNA copy numbers and methylation

  图a,b整合了TCGA的数据和他们自己已有的数据进行分析。
CNV gain的频率与CNV loss的频率显著正相关(r = 0.43,P = 1.5×10-20,图4a)。 相反,MET gain的频率与MET loss的频率呈负相关。
  在c图中,我们可以看到横坐标是CNV频率,纵坐标是 MET频率,可以看出他们有显著的相关性
  在图d,e,f,g中,分别以CNV gain ,CNV lose,MET gain ,MET loss进行坐标变换。然后都发现他们的之间的相关性与横纵坐标轴的变量变化无关。
  总之,作者认为频繁的DNA拷贝数异常的HCC患者更可能经常出现DNA甲基化异常。 异常CNVcor和METcor基因的这些相关频率可能意味着DNA拷贝数和DNA甲基化的异常之间的密切关系。


Identification of genomic key features in the HCC subtypes
  a:TCGA中肝癌的数据样本分析,剔除了同义突变后,筛选出在189个发生10次以上突变的重复突变基因,我们鉴定出37个差异突变基因,其中>5 %的突变频率在C1、C2、C3亚型之间存在差异(其中有2个肝癌样本没有基因组突变数据),发现了BAP1是C1突变的最频繁的基因。CTNB1是C3当中突变最频繁的基因,而且和肿瘤的分型高度相关

  b:GeneMania软件做的图(基因间相互作用的,可以在cytocsape里面装这个插件,也可以去分析网站GeneMANIA,网址: http://genemania.org),为了找到亚型的功能决定区域,利用SNU和TCGA数据交集CNVcor genes (n = 95) and METcor genes (n = 179)进行分析,发现了UBC 这个基因在CNV基因集中相关系数很高。(越靠中心说明了相关性越高。)

  c:先对这两个基因集求一下交集,找到相同的差异的上调或者下调的基因。举个例子来说:CA9是iCl1/C1肿瘤中上调表达差异最大的基因。(在文献中,CA9是缺氧的一个标志物,其过表达在HCC19中是一个不好的预后标志物。此外,与其他亚型相比,侵袭性iCl1和C1肿瘤表达了高水平的干细胞相关基因,如KRT19、EPCAM和PROM1。与Rhee, H等人.报道的CA9的表达与HCC中干细胞相关表型相关的结果符合[4]。)

  基于这个可能和干性有关的特性,进一步评估已知的和干性相关的基因集(即, ESC、Nanog、Oct4、Sox2、Myc1、Myc2的基因集)。在热图中,黄色代表高表达,蓝色代表低表达,发现在IC1,C1中这些干性的基因集高表达了。说明和这些差异表达的基因和肿瘤干性有关系。
  我们还将我们的分类与之前定义HCC亚型分子分类器的研究进行了比较。展现出来和筛选出来差异基因有overlap。这也意味着这些以前的分类器的表达可能与CNVcor和METcor基因畸变的频率有关。

(PS:肿瘤干细胞(CSC)理论认为肿瘤的发生、发展、转移和复发与CSC密切相关,对CSC的研究已成为肿瘤研究的热点。自我不断的更新复制以及保持分化的潜能是干细胞的特性。Sox2、Nanog等转录因子是维持干细胞干性的核心转录因子,那么有关于这些转录因子的表达情况是作者探究肝癌细胞是否具有干性的核心关注点。)

  综上所述,这些发现提示,与DNA拷贝数和DNA甲基化相关的HCC分子亚型也与BAP1和CTNNB1突变有关,这可能在HCC亚型进展中发挥调控作用。对于分类结果来说,我们认为C1和iCl1肿瘤可能具有这些亚型的共同功能特征,如侵袭性或干性。

d:展示了BAP1抑制对肝癌细胞干细胞基因表达的影响。Huh7细胞通过转染以BAP1 shrna,下调BAP1的表达,发现了包括CA9、KRT19、EPCAM、PROM1在内的stemness基因的显著上调表达。这些结果有力地支持了我们的发现,即BAP1突变可能至少在一定程度上促进了一种侵袭性HCC亚型表达。


这篇文献的主图基本上就讲到这里了。

回到之前的问题:
1:Why they choose HCC?
为什么选择肺癌?
因为肺癌的异质性比较大,而且在全球的发病率死亡率非常靠前。
2:How to find the vatient and high correlation CNVcor and DNAcor?
作者是找到这些异常的DNA甲基化基因和拷贝数变异的基因的?
通过表达谱,找到|r|>0.5的那些位点,进行分析。并且通过TCGA的样本分析,也找到很多这种差异表达基因。
3:How to prove this correlation mechanism?
如何去如何起证明这些基因的共调控作用呢?既然共调控,调控机制是什么?(或者是说如何去联系DNA甲基化和拷贝数变异的?)
通过寻找相关性,画线形图,找到相关性系数最大的进行比较。总体来说,通过自己的数据分析和重复了TCAG数据证明了CNVcor和METcor基因的频率之间的相关性。
4:How to classcify the carcinoma subtype? and how to show the result?
对肺癌进行分型是如何分的?分类结果如何显示呢?
利用了非负矩阵分解,对CNVcor和METcor的基因进行分类得到结果C1,C2,C3。并且比较了这几类的总体生存率和转移率。
5:How to find the most significant gene which has the pivotal role in tumor aggression?
如何筛选功能最显著表达差异的基因(如何筛选到BAP1?)
通过找到基因的突变频率,然后发现了BAP1这个基因在C1里面突变的频率是最多的,然后CTNB1在C3里面突变频率更高。(ps:通过求两个基因集的overlap进行热图分析,可以发现一些和干性相关的基因,并且进了实验验证)


文献thinking:
1:首先样本的数量60多对,感觉不是很多。虽然TCGA数据库验证可以部分找补。
2:基因的偏好性没有得到解决,需要进一步的去挖掘和阐述!
3:还有一些点可以深挖掘,比如说找到了一下表达差异相关的基因,那么这些基因在表观上有没有其他的作用,比如说是不是和组蛋白修饰或者是ncRNA有关?
4:这些基因当诊断的marker是否可行?(或者治疗靶点?)
5:DNA甲基化和CNV的相关性问题,既然找到了CNV_DOWN和MET_DOWN有正相关,图一f中,是不是可以继续挖下去呢?进一步解释一下DNA甲基化和CNV之间的是如何影响的呢?毕竟文章只是说存在相关性。

Ref:
https://www.ncbi.nlm.nih.gov/pubmed/29018224
1:Torre LA, Bray F, Siegel RL, Ferlay J, Lortet‐Tieulent J, Jemal A. Global cancer statistics, 2012. CA Cancer J Clin. 2015;65:87‐108.
2:Hindupur SK, Colombi M, Fuhs SR, et al. The protein histidine phosphatase LHPP is a tumour suppressor. Nature 2018, 555, 678‐682.
3:MALEK NP, SCHMIDT S, HUBER P, et al. The diagnosis and treatment of hepatocellular carcinoma[J]. Dtsch Arztebl Int, 2014, 111(7): 101-106. DOI:10.3238/arztebl.2014.0101.
4: Rhee, H. et al. Poor outcome of hepatocellular carcinoma with stemness marker under hypoxia: resistance to transarterial chemoembolization. Mod. Pathol. 29,1038–1049 (2016)

上一篇下一篇

猜你喜欢

热点阅读