MSI好知识生物基础知识

MSI 检测方法概述

2021-03-14  本文已影响0人  名本无名

1 MSI 相关概念

微卫星(Microsatellite)序列是遍布于人类基因组上数百万个基因座(loci)中的短串联重复(short tandem repeatsSTR)序列。

通常由 1-6 个重复(如单核苷酸、双核苷酸重复等)的碱基串联重复排列 10-50 次。

微卫星不稳定(MSI/MSI-H),由于在 DNA 复制时错配修复 (MMR) 基因的功能缺陷,导致串联序列发生插入和缺失突变,引起 MS 序列长度改变的现象。

这种类型的体细胞突变会导致抑癌基因失活或破坏其他非编码调控序列,从而起到致癌作用。

MSI 作为可作为一种独特的分子表型,存在于多种癌症中,包括结直肠癌,子宫内膜癌,胃癌,前列腺癌,卵巢癌和成胶质细胞瘤等。

并且 MSI 能够预测免疫检查点封锁疗法在实体瘤中的疗效。因此,检测 MSI 状态在肿瘤临床诊断和预后治疗上具有重要意义

2 MSI 检测方法

目前,MSI 检测方法主要有三种:

2.1 免疫组化(IHC

IHC 方法使用相应的抗体,通过对 4DNA 错配修复蛋白(MLH1PMS2MSH2MSH6)在细胞核内的表达情况,来确定细胞内是否存在错配修复功能缺陷。

如果其中任何一个蛋白出现表达缺失,则会被判定为错配修复缺陷(dMMR),相当于 MSI-H;如果四个蛋白全部表达,则判断为错配修复功能正常(pMMR),即 MSI-LMSS

其优势在于应用性广泛,并且能确定哪些 MMR 蛋白在肿瘤中细胞中表达缺失。

但是,IHC 本身存在主观性,同时受抗体质量和实验因素等影响,有时无法检出某些定性蛋白的变化,导致 MMR 结果偶有报错。

2.2 PCR

主要采用多重荧光 PCR 结合毛细管电泳的方法,通过 PCR 扩增特定的微卫星序列,然后通过毛细管电泳比较肿瘤组织与正常组织微卫星序列长度的差异来判断该位点是否存在 MSI 现象。

这种检测方法是公认的 MSI 检测的金标准,也是使用最广泛的方法。

最开始使用的是 National Cancer InstituteNCI)推荐的 5 个位点:

通过如下方式来判断结直肠癌的 MSI 状态:

有研究表明,MSSMSI-L 之间没有明显的肿瘤生物学特征差异,因此,临床上将 MSI-L 也归类为 MSS

后来有研究指出,二核苷酸重复较单核苷酸重复的位点敏感性更低,且存在高度的个体多态性,需要配对的肿瘤和正常样本对照才能得出结果。因此,降低了检测的灵敏度。

因此,有人提出 pentaplex panel,包含五个单核苷酸重复的位点:

无需配对正常的样本,且性能更高,但是在 MSH6 缺陷型肿瘤中性能不高

目前使用更多的是 Promega 系统,包含:

PCR 检测方法不仅弥补了 IHC 在因非截断式错义突变导致的 MSI 无法检出的漏洞,同时还具备良好的可重复性。

但是,其检测的基因(panel)的位点较少、通量较低、无法提供具体的基因突变信息,而且实验周期较长。

2.3 NGS

随着高通量测序技术的发展,使用全基因组测序(WGS)、全外显子测序(WES)或靶向基因测序(TGS)进行 MSI 检测的已经越来越普遍了。

PCR 相比,NGS 方法通量大,涉及基因范围广、灵敏度和特异性更高,可与靶点的突变检测、肿瘤突变负荷(TMB)等检测共用一份测序数据。

在目前已发表的 NGS 方法中,一般都是以 PCR 检测结果作为金标准,通过比较二者结果一致性作为评价 NGS 检测性能的标准。

NGS 检测方法种类繁多,且大多数需要配对正常样本,我们可以将这些方法分为两大类

  1. 基于位点的 repeat count 分布

在这里,可能需要讲解一下何为 repeat count

在上面的图中,我们假设微卫星位点为 10 个连续的 A,且该位点比对上了 10reads,每条 read 比对上的长度长短不一。由此,我们可以计算出 repeat count

repeat 为所有 reads 的长度,count 为各长度对应的 reads 支持数

其分析流程与原理大致可以用如下流程图来描述

包括 MSIsensormSINGsMANTISCortes-CirianoMSI-ColonCore

  1. 基于突变负荷或 MS 位点的 indel

其分析流程与上面类似

包括 MSIseq IndexMSIseq/NGS classifierNowak

3 常用 NGS 方法原理介绍

3.1 MSIsensor

MSIsensor 是通过 MS 位点两端各 5bp 的侧翼序列来定位的,算法原理为

  1. 对于在肿瘤和正常样本中测序深度都 ≥20 的微卫星位点, 统计其每种重复(repeat)长度的 reads 数目分布情况;

  2. 其次, 使用卡方检验对微卫星位点上的分布进行统计检验, 若存在显著差异, 则认为该位点是不稳定的;

  3. 最后统计不稳定位点的比例, 如果该比例超过指定的阈值, 则认为该样本为 MSI-H

3.2 mSINGs

mSINGs 方法也是通过计算每个位点的不稳定性,并以不稳定位点的比例作为样本的 score 值,大于阈值的认为是不稳定状态。

  1. 通过从 MSS 样本中构建参考基准,即 baseline。对于某一个位点
  1. 在待预测的样本中,对于每个位点,使用 1 中的方法计算其标准化均值,如果该值不在 baseline 均值的 3 倍标准差之间,则认为该位点不稳定

  2. 计算不稳定位点的比例来判断样本的 MSI 状态

3.3 MANTIS

MANTIS 也是根据肿瘤及其配对正常样本的 repeat count 的分布计算样本的不稳定状态。

它将每个位点在样本中的 repeat count 分布看成是一个向量,通过对这两个向量计算欧氏距离、余弦相似度等度量分数,并将所有位点的均值作为样本的不稳定分数。

具体计算方式如下:

  1. reads 进行质控,保留长度和质量满足要求的 reads
  2. 计算配对肿瘤和正常样本的 repeat count 分布
  3. reads 数过低的 repeat 去除
  4. 对位点的总 reads 数进行控制,总数需要超过阈值
  5. 标准化 reads 数,转换为 reads 占比
  6. 计算两个向量的度量分数
  7. 以所有位点的分数均值作为样本的不稳定值

可以看到,该方法进行了比较严格的质控

3.4 MSI-seq Index

该方法是基于 RNA-seq 数据,通过计算两个指标的比值 PI/PD,如果该比值小于 0.9 则认为该样本为 MSI

其中,PI 表示微卫星位点区域发生插入突变占所有插入突变的比例,PD 表示微卫星位点区域发生缺失突变占所有缺失突变的比例。

3.5 MSIseq/NGS classifier

该方法通过计算样本中单核苷酸替换率和小片段的碱基插入删失率等突变信息构建特征,然后应用机器学习算法构建分类器。

具体的特征包括:

该方法使用的是 WES 数据,且选择了线性回归,决策树,随机森林和朴素贝叶斯四种算法。其中最优的算法是决策树,该方法不需要配对的正常样本。

from:生信学习手册

上一篇下一篇

猜你喜欢

热点阅读