MSI 检测方法概述
1 MSI 相关概念
微卫星(Microsatellite
)序列是遍布于人类基因组上数百万个基因座(loci
)中的短串联重复(short tandem repeats
,STR
)序列。
通常由 1-6
个重复(如单核苷酸、双核苷酸重复等)的碱基串联重复排列 10-50
次。
微卫星不稳定(MSI/MSI-H
),由于在 DNA
复制时错配修复 (MMR
) 基因的功能缺陷,导致串联序列发生插入和缺失突变,引起 MS
序列长度改变的现象。
这种类型的体细胞突变会导致抑癌基因失活或破坏其他非编码调控序列,从而起到致癌作用。
MSI
作为可作为一种独特的分子表型,存在于多种癌症中,包括结直肠癌,子宫内膜癌,胃癌,前列腺癌,卵巢癌和成胶质细胞瘤等。
并且 MSI
能够预测免疫检查点封锁疗法在实体瘤中的疗效。因此,检测 MSI
状态在肿瘤临床诊断和预后治疗上具有重要意义
2 MSI 检测方法
目前,MSI
检测方法主要有三种:
2.1 免疫组化(IHC
)
IHC
方法使用相应的抗体,通过对 4
种 DNA
错配修复蛋白(MLH1
,PMS2
,MSH2
,MSH6
)在细胞核内的表达情况,来确定细胞内是否存在错配修复功能缺陷。
如果其中任何一个蛋白出现表达缺失,则会被判定为错配修复缺陷(dMMR
),相当于 MSI-H
;如果四个蛋白全部表达,则判断为错配修复功能正常(pMMR
),即 MSI-L
或 MSS
。
其优势在于应用性广泛,并且能确定哪些 MMR
蛋白在肿瘤中细胞中表达缺失。
但是,IHC
本身存在主观性,同时受抗体质量和实验因素等影响,有时无法检出某些定性蛋白的变化,导致 MMR
结果偶有报错。
2.2 PCR
主要采用多重荧光 PCR
结合毛细管电泳的方法,通过 PCR
扩增特定的微卫星序列,然后通过毛细管电泳比较肿瘤组织与正常组织微卫星序列长度的差异来判断该位点是否存在 MSI
现象。
这种检测方法是公认的 MSI
检测的金标准,也是使用最广泛的方法。
最开始使用的是 National Cancer Institute
(NCI
)推荐的 5
个位点:
- 两个单核苷酸重复
BAT-25
、BAT-26
和三个二核苷酸重复D2S123
、D5S346
、D17S250
通过如下方式来判断结直肠癌的 MSI
状态:
-
5
个位点均稳定即微卫星稳定(MSS
),1
个位点不稳定称为低度微卫星不稳定(MSI-L
),2
个及2
个以上位点不稳定被认为是MSI-H
,。
有研究表明,MSS
和 MSI-L
之间没有明显的肿瘤生物学特征差异,因此,临床上将 MSI-L
也归类为 MSS
。
后来有研究指出,二核苷酸重复较单核苷酸重复的位点敏感性更低,且存在高度的个体多态性,需要配对的肿瘤和正常样本对照才能得出结果。因此,降低了检测的灵敏度。
因此,有人提出 pentaplex panel
,包含五个单核苷酸重复的位点:
-
NR-21
、NR-24
、BAT-25
、BAT-26
、NR-27/MONO-27
无需配对正常的样本,且性能更高,但是在 MSH6
缺陷型肿瘤中性能不高
目前使用更多的是 Promega
系统,包含:
- 5 个单核苷酸重复:
BAT-25
,BAT-26
,NR-21
,NR-24
和MONO-27
- 2 五核苷酸重复质控位点:
Penta C
和Penta D
PCR
检测方法不仅弥补了 IHC
在因非截断式错义突变导致的 MSI
无法检出的漏洞,同时还具备良好的可重复性。
但是,其检测的基因(panel
)的位点较少、通量较低、无法提供具体的基因突变信息,而且实验周期较长。
2.3 NGS
随着高通量测序技术的发展,使用全基因组测序(WGS
)、全外显子测序(WES
)或靶向基因测序(TGS
)进行 MSI
检测的已经越来越普遍了。
与 PCR
相比,NGS
方法通量大,涉及基因范围广、灵敏度和特异性更高,可与靶点的突变检测、肿瘤突变负荷(TMB
)等检测共用一份测序数据。
在目前已发表的 NGS
方法中,一般都是以 PCR
检测结果作为金标准,通过比较二者结果一致性作为评价 NGS
检测性能的标准。
NGS
检测方法种类繁多,且大多数需要配对正常样本,我们可以将这些方法分为两大类
- 基于位点的
repeat count
分布
在这里,可能需要讲解一下何为 repeat count
在上面的图中,我们假设微卫星位点为 10
个连续的 A
,且该位点比对上了 10
条 reads
,每条 read
比对上的长度长短不一。由此,我们可以计算出 repeat count
repeat
为所有 reads
的长度,count
为各长度对应的 reads
支持数
其分析流程与原理大致可以用如下流程图来描述
包括 MSIsensor
、mSINGs
、MANTIS
、Cortes-Ciriano
、MSI-ColonCore
等
- 基于突变负荷或
MS
位点的indel
其分析流程与上面类似
包括 MSIseq Index
、MSIseq/NGS classifier
、Nowak
等
3 常用 NGS 方法原理介绍
3.1 MSIsensor
MSIsensor
是通过 MS
位点两端各 5bp
的侧翼序列来定位的,算法原理为
-
对于在肿瘤和正常样本中测序深度都
≥20
的微卫星位点, 统计其每种重复(repeat
)长度的reads
数目分布情况; -
其次, 使用卡方检验对微卫星位点上的分布进行统计检验, 若存在显著差异, 则认为该位点是不稳定的;
-
最后统计不稳定位点的比例, 如果该比例超过指定的阈值, 则认为该样本为
MSI-H
。
3.2 mSINGs
mSINGs
方法也是通过计算每个位点的不稳定性,并以不稳定位点的比例作为样本的 score
值,大于阈值的认为是不稳定状态。
- 通过从
MSS
样本中构建参考基准,即baseline
。对于某一个位点
- 只考虑位点测序深度大于
30
的样本 - 计算该位点的
repeat count
分布 - 标准化该位点的
repeat count
(除以总reads
数) - 过滤掉标准化分数小于
5%
的repeat
- 然后以这些
repeat
标准化值的均值和方差作为baseline
-
在待预测的样本中,对于每个位点,使用
1
中的方法计算其标准化均值,如果该值不在baseline
均值的3
倍标准差之间,则认为该位点不稳定 -
计算不稳定位点的比例来判断样本的
MSI
状态
3.3 MANTIS
MANTIS
也是根据肿瘤及其配对正常样本的 repeat count
的分布计算样本的不稳定状态。
它将每个位点在样本中的 repeat count
分布看成是一个向量,通过对这两个向量计算欧氏距离、余弦相似度等度量分数,并将所有位点的均值作为样本的不稳定分数。
具体计算方式如下:
- 对
reads
进行质控,保留长度和质量满足要求的reads
- 计算配对肿瘤和正常样本的
repeat count
分布 - 将
reads
数过低的repeat
去除 - 对位点的总
reads
数进行控制,总数需要超过阈值 - 标准化
reads
数,转换为reads
占比 - 计算两个向量的度量分数
- 以所有位点的分数均值作为样本的不稳定值
可以看到,该方法进行了比较严格的质控
3.4 MSI-seq Index
该方法是基于 RNA-seq
数据,通过计算两个指标的比值 PI/PD
,如果该比值小于 0.9
则认为该样本为 MSI
其中,PI
表示微卫星位点区域发生插入突变占所有插入突变的比例,PD
表示微卫星位点区域发生缺失突变占所有缺失突变的比例。
3.5 MSIseq/NGS classifier
该方法通过计算样本中单核苷酸替换率和小片段的碱基插入删失率等突变信息构建特征,然后应用机器学习算法构建分类器。
具体的特征包括:
该方法使用的是 WES
数据,且选择了线性回归,决策树,随机森林和朴素贝叶斯四种算法。其中最优的算法是决策树,该方法不需要配对的正常样本。
from:生信学习手册