全基因组/外显子组测序分析

多组学文献精读06 | 在10389 个成人肿瘤中致病性胚系突变

2020-04-21  本文已影响0人  珠江肿瘤

Pathogenic Germline Variants in 10,389 Adult Cancers

在 10389 个成人肿瘤中致病性胚系突变

(Cell, IF=36.216)

01 知识补充

  1. 胚系突变 与 体细胞突变

胚系突变来自于上一代,可以遗传给下一代,下一代的所有细胞都将携带该突变;而体细胞突变是在发育过程中发生的突变,仅身体的部分细胞携带该体突变,不能遗传给下一代。

2. 肿瘤易感基因:某基因发生胚系突变后,高度或中度增加个体患癌风险。这样的基因称为肿瘤易感基因(Genes in which germline mutations confer highly or moderately increased risks of cancer are called cancer predisposition genes)

Summary:

在来自 TCGA 33 种癌症类型的 10389 例病例中进行肿瘤易感基因的研究,发现 853 个致病性或可能致病性 变异。21 个基因显示出一个或多个肿瘤类型关联,包括黑色素瘤中 SDHA 和胃腺癌中 PALB2 的新型关联。659 个易感基因和 18 个大缺失(拷贝数丢失)发生于抑癌基因,包括 ATM,BRCA1 和 NF1,显示出低基因 表达和频繁(43%)的杂合性或双等位基因两次击中事件。33 个胚系突变发生于原癌基因,包括与高基因 表达相关的 MET,RET 和 PTPN11 错义突变。47 个肿瘤易感突变来源于 VUS,该结论得到了多个证据的支持,这些证据涉及病例控制频率,杂合性缺失,表达效果以及与突变和修饰残基的共定位。该研究的综合分析将罕见的易感变异与功能性结果联系在一起,为将来的肿瘤中突变分类和种系遗传测试指南提供指导。

02 介绍部分

胚系突变的研究现状:很大一部分癌症是可遗传的,但已知的常见变异仅解释了肿瘤遗传因素的极小一部分。已发现 100 多个基因(主要是抑癌基因)具有罕见的易感等位基因。尽管越来越多的证据表明,在各 种肿瘤类型中有共同的易感因素,但目前关于种系变异的大多数报道主要集中在单一肿瘤类型上。先前的泛肿瘤研究在 TCGA 和 COGS 和 PCGP 数据库样本中发现一些致病性胚系突变。随着测序项目的扩大,需要进行大规模的系统分析,以提高统计效能并比较不同基因和不同癌症类型的易感因素。

种系变异的临床解释:ACMG-AMP 指南(美国医学遗传学和基因组学学院–分子病理学协会)为解释遗传性疾病的序列变异提供了一套系统的方法。但是现有数据库和主要文献中罕见的和矛盾的结果,较大部分 变体被归为不确定意义(VUS)类别。与种系变异相关的高通量数据的系统分析,如匹配的肿瘤测序和 mRNA 测序数据,可以提供功能结果的证据,并进一步为临床解释提供依据。例如,从匹配的肿瘤和正常样品的测序分析中得到的等位基因片段,可以验证在经典两次打击模型的背景下抑癌基因的变体是否进行正性选 择(positive selection),mRNA 分析可以验证种系截短突变是否导致该基因表达减少。当前的 ACMG-AMP 指南并未使用这种体细胞分析证据来评估胚系突变。

本研究内容概括:研究者分析了 TCGA 队列中 33 种癌症类型的 10389 个个体的致病性突变,发现 8%的病 例携带致病性或可能致病性胚系突变,变化范围从高频的 22.9%(PCPG)到低频的 2.2%(CHOL)。在原癌 基因中发现了 33 个胚系突变,抑癌基因的突变表现出低表达(47.6% in bottom 25% of the carrier sample’s respective cancer cohort)和杂合性丧失(LOH;38.5%),而原癌基因的突变往往伴随的是高水平表达(62% in top 25%)。然后在其他肿瘤队列和 RET 等位基因的实验进行验证,研究者进一步研究这些胚系突变的功能。最 后,基于提示功能的多条证据,研究者发现另外 18 个拷贝数缺失和题名 47 个 VUSs。总而言之,该研究代表了罕见的、胚系易感性突变的最大系统发现,并为解决它们在癌症中的功能提供坚实的基础。

03 结果部分

No.1 数据产生与云共享

image

Figure 1.TCGA 泛肿瘤队列中,含 33 种癌症的 10389 个样本中的易感突变识别.

Fig 1a:TCGA PanCanAtlas 生殖系工作组在系统生物学癌症基因组学云研究所(ISB-CGC)上进行了基因突变研 究,研究成果在研究人员中共享,以进行质量控制和下游分析

image

Fig 1b:对 GenomeVIP(突变召回系统)dockerized 封装,整合 GATK(Genome Analysis Toolkit),VarScan2 和 Pindel 等软件检测到的突变,并进行过滤和注释,总共得到 286,657,499 个外显子变异,范围从平均每个非 洲血统的 33,037 个外显子变异到平均每个欧洲血统的 26,640 个外显子变异。

补充:GenomeVIP 突变召回系统:是基于云计算的基因组学(包括胚系突变和体系突变)分析管道,提供 了遗传变异发现和解释的分析工具和计算框架的集合。该服务器和运行环境可以自定义、更新或扩展。

过滤过程:

Fig 1C:最终分析纳入 33 种癌症类型的 10389 例患者的属性,包括 TCGA 癌症类型的缩写、性别比例和发 病年龄

Figure S1. 样本和胚系突变的质量控制

(A) 用于突变识别的样本的覆盖度分布

(B) 152 个已知致病性突变的平均覆盖深度。质控后保留 10389 个样本。

(C) 突变召回与基因型数据(SNP 芯片)的一致性。从最后的 10389 个样本中剔除一致性低于 60%的样本。

(D) 评估每种癌症类型中变异检出的估计假阳性率。在 KIRC 和 LAML 中,邻近的正常组织(而非血液正常样本)占主导地位,这给突变带来了特殊的挑战。下游过滤过程确保了这些样品中发现的致病图突变的质量。

(E) 33 种肿瘤中识别的外显子突变数量。一个点代表一个个体。低于 15000 外显子变异的样本被移除。

最终有 10,389 个样本通过严格的质量控制标准,显示出良好的覆盖率,突变识别与单核苷酸多态性(SNP) 阵列数据高度吻合(STAR 方法)。在正常的种系样品(germline-normal samples)中,质量控制分析显示, 152 种癌症易感基因具有罕见的致病性变异,其覆盖范围为 18~174X(STAR 方法,表 S1 和图 S1)。与通过 SNP 阵列数据获得的基因型相比,通过外显子获得的突变召回达到了 0.99 以上的平均精度(图 S1)。种系 外显子组显示出较高的质量,平均转化率(TiTv)为 2.88±0.17,λ值(Koire et al,2016)为 0.034±0.003。在 33 种癌症类型中,假阳性的平均预测百分比低于 5%,从 1.2%(MESO)到 16.1%(KIRC,图 S1)。这 些资源与癌症研究者社区在云上共享,以便在全球各个机构之间进行进一步评估。

No.2 33 种肿瘤类型中识别致病性突变

作者团队在 ACMG-AMP 指南基础上扩展开发了一个胚系突变分类的pipeline--CharGer(ding-lab/CharGer)。

经 CharGer 处理后,筛选出 31,963 个突变,其中 1,393 个通过了正常和肿瘤样品的人工审查。结合现有数 据库和 CharGer 结果,研究者将它们分为 435 个致病性变异,418 个可能的致病性变异和 540 个 VUS(表 2)。

Fig 2a:在所有肿瘤类型中,4.1%(428/10389)样本含有致病性突变,3.8% (390/10389)样本携带可能的致病 性突变。不同肿瘤类型间,致病性突变和可能的致病性突变的频率变化很大, 在 OV(19.9%) 和 BRCA (9.9%)中表现高总体频率。一些肿瘤类型暴露于环境因素,携带较低的致病和可能致病的突变,如 SKCM (6.2%) 和 UVM (葡萄膜 黑色素瘤 5%)。22.9%的 PCPG(嗜铬细胞瘤和副神经节瘤),14.1%的 PAAD 和 12.5%的 SARC(肉瘤) 病例均携带致病或可能致病性突变,这表明易感基因在这些队列中的重要贡献。

Fig 2b:每种肿瘤中,原癌基因与抑癌基因,以及其他基因的胚系突变计数

Fig 2c-2d:每种癌症类型中富集致病性或可能致病性变异的基因。

(c)肿瘤中富集的基因致病性变异的携带频率。每个方框中的数字(携带频率)表示特定肿瘤队列中每个基因的致病 性变异的载体百分比(携带者百分比,percentage of carriers)。黑色轮廓表明该基因的致病变异显著富集与对应的肿 瘤类型(FDR <0.05)。灰色轮廓表示提示性富集(FDR <0.15)。

(d)肿瘤中,抑癌基因和原癌基因的致病性和可能致病性突变的计数

首先,通过与 ExAC non-TCGA 队列中确定的致病性突变或可能的致病性突变进行比较,鉴定出潜在富集度高的癌 症类型。然后,将致病性或可能致病性变异转换至基因水平,进行一种癌症类型对所有其他癌症类型的全频测试(TFT), 减去具有潜在富集的基因,确定了 28 个特定的肿瘤与基因关联(FDR <0.05)和 16 个提示性关联关联(FDR <0.15) (图 2C 和表 S3)。这些来自负荷测试的发现大部分是已知的关联。例如,BRCA1 和 BRCA2 的致病性或可能致病 性变异在OV和BRCA中高度富集(FDR <1.15E-05),此外BRCA2在PAAD中也表现出显著富集(FDR = 0.012)。PCPG 与多种易患因素相关,包括 RET,SDHB,VHL,NF1,SDHD 和 MAX。

No.3 二次打击学说

研究者使用先前开发的统计检验检查 LOH 的程度,以更好了解发现的变体的生物学影响

Fig 3A: 在肿瘤中发现了 157 个致病或可能致病胚系突变发生显著性 LOH(FDR <5%),其中 148 个发生于抑癌基因。相比之下,仅 4 个癌基因变异发生显著性 LOH,这可能是由于它们为功能获得性突变和较少需要纯合状态。

Fig 3B: 使用 GISTIC 描述正常和肿瘤计数数据(read-count data)和肿瘤拷贝数变异(CNV), 验证发现的 LOH 的等位基因特异性。提示性 LOH 变体(FDR <0.15 或肿瘤 VAF> 60%)与显 著 LOH 变体缺失程度相似。因此,由于测序读数不足,其中许多可能是未能达到统计学显 着性的真实事件。这一结果使表现出 LOH 的抑癌基因突变比例增加至 38.5%(n = 254)。

Fig 3C: 进一步证实,抑癌基因中 154 个 LOH 事件是由于野生型等位基因的缺失所致。

补充:

HGSV 基因突变命名规则:仅展示以蛋白质为参考序列的命名

1. 替换:如 p.Trp26Cys,表示第 26 位的 Trp 被 Cys 取代(错义突变);p.Trp26Ter (p.Trp26*),表示第 26 位的 Trp 变为终止密码 (无义突变);p.Cys123=,表示基因突变之后,氨基酸没有发生改变(同义突变);

2. 缺失:如 p.Ala3_Ser5del,表示多肽序列中从第 3 位的 Ala 到第 5 位的 Ser 发生了缺失;

3.插入:如 p.Lys2_Gly3insGlnSerLys,表示在第 2 位的 Lys 和第 3 位的 Gly 之间插入了 GlnSerLys;

4.插入缺失:如 p.Cys28delinsTrpVal,表示第 28 位的 Cys 缺失,同时被 TrpVal 取代;

5.重复:如 p.Ala2[10],表示第 2 位的 Ala 重复了 10 次;

6.移码突变:在起始密码子和终止密码子之间的读码框发生了改变;以“fs”进行表示;如 p.Arg97ProfsTer23,表示第 97 位的 Arg 是首个发生改变的氨基酸,且 Arg 变为 Pro,同时发生移码突变后,终止密码的位置变为第 23 位;一个典型的 HGVS 命名示例如下:

NC_000023.9:g.32317682G>A 顺序为:参考序列,变异位置,变异类型

SF 3A: 肿瘤内的比较与肿瘤间的比较

两次命中假说的另一种表现是致病性或可能的致病性胚系突变,加上易感基因另一拷贝中的体细胞突变。

Fig 3d:ATM,BRCA2 和 MSH6 基因产物上的候选双等位事件(致病性或可能致病性变体、体 细胞突变)胚系变体用红色上色,体细胞突变用蓝色上色。在同一病例中观察到的胚系突变 和体细胞突变结合事件结合在一起,用灰线表示。

Fig 3D:在 TCGA 队列中,鉴定出 37 个候选双等位基因事件(Exact Poisson test,p <1E-5,表 S4)。ATM 的六个胚系突变,包括两个 p.T2333fs 和 1 个 p.S2289fs,1 个 p.R23 *,1 个 p.E1267fs 和 1 个起始缺失变体,与 ATM 体细胞突变相结合。携带不同 BRCA2 种系截短突变的三例, 包括 p.T1598fs,p.A2314fs 和 p.Q1037 *,也包含 BRCA2 体细胞突变。

SF 3b:一个COAD 病例携带了一个 MSH6 p.R248fs 种系变异体和一个 p.R248 *体细胞突变,它们在所有测序读数中都是互斥的,从而清楚地支持了两个等位基因的两次打击。

No.4 易感基因携带者的基因表达改变

(A) 示每种肿瘤类型中,携带基因胚系突变样本与该基因转录本水平的相关性。每个点代表一个基因-癌症关联,其中颜色表示癌症类型,形状表示显著性。

(B) 示致病性基因表达的分布。每个点对应于携带种系变体的病例相对于其相应癌症队列的其他病例的基因表达百分数。与高表达相关的原癌基因变异被写上标记。(红色圆点代表错意突变、蓝色圆点代表截短突变)

-在乳腺癌中,FANCM,ATM,BRCA2,CHEK2 和 BRCA1 突变基因的表达明显降低。在 PCPG 中,RET 致病性突变样本表现出更高的 RET 表达,而 SDHB,NF1 和 SDHD 突变样本对应的基因表达较低。除乳腺癌外,ATM 在 LUAD 和 LGG 中的表达也明显较低(负相关系数)。

(C) 示每种肿瘤类型中,携带基因胚系突变样本与 RPPA 中该蛋白和磷酸化蛋白标志水平的相关性。每个点代表一个基因-癌症关联,其中颜色表示癌症类型,形状表示显著性。

(D) 含致病性突变样本中,该基因对应蛋白和磷酸化蛋白表达水平的分布。每个点对应于携带种系变体的病例相对于其相应癌症队列的其他病例的 基因表达百分数。

No.5 罕见的胚系拷贝数变异

fig 5a-5b:使用 SNP 芯片数据和全外显子组测序(WES)数据,系统地扫描了 10389 个样本中的稀有种系拷贝数变 异(CNV)。在 SNP 阵列识别了 42,208 rare (AF < 0.6% considering 50% overlaps) CNVs(CNV 值:log2 (segment mean)),使用 XHMM 在 WES 数据识别了 53,726 CNVs(CNV 值:标准化的基因测序深度)。

Fig 5c:在两个数据集中,3,584 个重叠的 CNV 通过了罕见的频率过滤。平均而言,每个案例都有 0.38 个重叠缺失 和 0.96 个重叠重复。44%CNV 影响单个基因,而 56%的 CNV 影响多个基因。

(D)与肿瘤类型相关的易感基因拷贝数变异,展示 CNV 值、对应基因表达和检测技术。星号 (*) 对应 WES 和 SNP 阵列共同鉴定了 2 对拷贝数变异事件

(E) 每一个 CNV 事件在其对应肿瘤队列中的基因表达百分位数。每一个点代表一个 CNV 事件,不同的颜色代表不同的肿瘤类型

No.6 证实致病性的独立基因组证据

Fig 6

(A) 相比于 ExAC Non-Finnish European cohort 中的 non-TCGA 样本,致病性胚系突变在 TCGA 样本中显著富集

(B) 致病性或可能致病性突变与常见体细胞突变(N >3,in MC3 dataset))或 1120 儿科肿瘤胚系突变的共定位

fig 6A:研究者比较由 33,370 个非 TCGA 样本(come from ExAC Non-Finnish European cohort,外显子组整合 数据库非芬兰欧洲队列)和 TCGA 样本以进行关联性检验,以确定致病性或可能致病性变体是否富集于肿瘤样本中。发现 30 个表现为提示性关联的独特变体(单尾 Fisher 精确检验,p <0.05,图 6A 和表 S6), 通过多重测试阈值 (FDR <0.05)的前四个相关变体包括 ATM p.E1978 *(p = 3.50E-06),BRCA1 p.Q1777fs(p = 2.97E-05),POT1p.R363 *(p = 3.11E-05)和 PALB2 p.R170fs (p = 5.20E-04)。该结果还提供了致癌变体如 MET p.H1112R(p = 2.00E-03)和 MPL p.F126fs(p = 0.0161)的致病性证据。

-fig 6B(S6): TCGA 队列中,观察到先前在 1,120 例儿科癌症中发现的 28 种致病或可能致病的变体,包括 BRIP1, ERCC3,FANCC,MSH2 和 WRN 中的终止密码子获得变体(stop-gained variants)。此外,观察到 23 个胚系 突变与 MC3 中复发体细胞突变(n≥3)的共定位事件。考虑到独特的变体,其中包括 TP53 中的 8 个胚系错义变体, NF1 的 4 个胚系截短和 RET 的 2 个胚系错义突变。TP53 p.R248W 是高度复发的体细胞突变(n = 94),同时在 小儿横纹肌肉瘤和 LGG 中均作为种系变异体被观察到。在 PCPG 中的 RET p.M918T,也被发现为复发性体细胞突 变(n = 4)。总体而言,我们观察到复发性体细胞突变与 PCGP 变体和 TCGA 中发现的致病性或可能致病性变体之 间存在显着重叠(精确 Poisson 检验,两个试验中的 p <2.2E-16),暗示在小儿和成年癌症的易感性中存在共同的致癌过程,以及共同的种系和体细胞基因组。

No.7 翻译后修饰位点( Post-Translational Modification (PTM) )的变异

Fig 6c:易感基因蛋白位点特异性相互作用网络,显示了胚系碱基替换突变发生于上游激酶和其他酶位点或其临近位点 -为了研究胚系突变对蛋白质信号传导的潜在功能影响,研究者将 853 个致病或可能致病性突变映射到来自 ActiveDriverDB,hosphoSitePlus 和UniProt Knowledge Base的316,216个实验收集已知的翻译后修饰(PTM) 位点。总体而言,发现 65 个氨基酸取代(缺失)与 34 个独特的 PTM 直接重叠或相邻(表 S6),1000 个基因组 数据集中观察到的那些变异作为对照的富集分析,显示某些 PTM 位点显着富集胚系突变(排列检验,p <2x10- 11)。致病性 PTM 相关取代的前六个基因包括 VHL(n = 10),CHEK2(n = 9),BUB1B(n = 9),TP53(n = 8) 和 RET(n = 6)。

No.8 Functional Assessment of Germline RET Alleles

(A) TCGA 队列中识别的致病性或可能致病性突变、VUS 突变

Cadherin:钙黏素结构域

PTKc_RET:酪氨酸蛋白激酶的催化结构域

Pkinase_Tyr:酪氨酸蛋白激酶结构域

(B) 3D 蛋白结构图展示 RET 和 MET 激酶结构域中体细胞突变与胚系突变的共聚类。胚系突变(红色),体细胞突变(红色),体细胞突变和胚 系突变共同影响(浅粉色)的氨基酸残基

(C) RET 胚系等位基因信号功能的实验评估。顶部:通过测量 pMAPK / RET / GAPDH 比率评估不依赖配体的 RET 活性,以野生型中的比率标准化(即野生型比率为 1)。底部:通过测量 pMAPK/GAPDH 比率评估 RET 胚系等位基因活性,以野生型中的比率标准化。

一个 MET 激酶结构域簇以残基 p.H1112 为中心,致病性种系变体 p.H1112R 和体细胞突变 p.H1112Y 发生在此中心。该簇包含其他体细胞突变,包括 p.T1114S 和致病性 p.V1110I 和种系 VUS p.H1097R。

一个 RET 激酶结构域簇,该簇包含共定位的种系 VUS p.R844L / Q 和 p.R846V 以及共聚类的 VUS p.R817C 和 p.E843K(图 7B),其中一些显示功能相关的证据。例如,RET p.E843K 与癌症人群中的高表达(第 97 个百 分位数)和潜在富集(p = 1.7E- 4)(表 S2)。

首先通过 pMAPK / RET / GAPDH 之比测量RET 活性(图 7C), 组成性激活 p.C618F 显示配体非依赖的激活, 而激酶失效的 p.K758M 显示 pMAPK 的背景水平。p.M918T 也表现出更高的活性,与严重的疾病表型相一致,而在本研究中发现的所有其他胚系 VUS 未显示出显著的活性变化。

No.9 Nomination of VUSs Using Combined Evidences

SF 2D: 多种证据筛选具有潜在功能的 VUS,包括病例对照频率、LOH,表达相关性、与复发 突变和 PTM 残基的共定位。

整合方法可进一步筛选 VUS,找出其潜在的功能。在 540 个被分类为 VUS 中(图 1),满足涉及样本控制 频率、LOH、表达效应,以及与复发突变和 PTM 的共定位(图 S2 和表 S2)中的至少两种证据提示 47 个易 感性变体。其中包括肿瘤富集(p = 1E 4)六次 ERCC2 p.F544fs,三个 FANCC 和三个 FANCL 截短突变,LOH 相关的一个 POLH 突变和一个 FANCM 突变,其携带者各自在各自队列中的表达水平均均位于下 25%百分位数。这些功能评估方法可能会为将来的变异分类指南提供参考。

上一篇 下一篇

猜你喜欢

热点阅读