生物信息学

如何提高FFPE变异检测质量?

2020-05-22  本文已影响0人  bioYIYI

FFPE测序数据检测变异面临的问题

通过对大量样本进行重测序技术(全基因组、全外显子组、目标区域)以剖析癌症的致病机制,挖掘癌症相关的基因是近些年癌症相关分析的常用策略。巨大的样本量为样本的收集造成了很大的困扰:很难获得如此大量的冷冻组织。由于福尔马林固定和石蜡包埋是病例诊断的常规操作,故利用FFPE样本不仅可以解决样本收集的问题,还可以动态的追踪病人的病情发展。但用FFPE样本进行测序面临这两大挑战:1.病理切片常常会被正常组织污染;2.由于福尔马林与胞嘧啶的交联作用使得FFPE样本较冷冻组织而言有更高频率的不可重复的突变(DNA损伤)。因而急需开发通过对FFPE样本进行全基因组重测序,检测高质量的体细胞突变的方法。文章Identification of high-confidence somatic mutations in whole genome sequence of formalin fixed breast cancer specimens从数据处理的角度讲述了利用FFPE样本进行高质量体细胞变异检测的策略,小编给大家解读一下

分析流程图(研究思路)

image.png

样本选择

样本数:4
样本详情:
1) 癌组织:三阴乳腺癌,癌组织经福尔马林固定后制成5um的石蜡切片;DNA提取自石蜡切片(>80–85% purity区域)。
2) 对照:外周血

测序建库

将DNA打断成~150bp的片段后制备成文库,用SOLiD3+和 SOLiD4+平台进行测序。数据量见下表

image.png

分析方法

  1. 对tumor 和 germline样本进行测序

  2. 对 germline进行芯片分析,经过滤和转换共获得2 015 517个SNP

  3. 比对:将两个样本的测序数据与参考基因组进行比对(参考基因组:hg18;软件:BFAST)、去重、重比对(GATK IndelRealigner),然后将两个患者的BAM文件进行合并(SAMtools v0.1.8-13 )用于后续分析。

  4. 错配率统计:

1) Mismatches:一个read中的替换率,各样本的错配率如下图所示:其中All表示总的测序数据,1 M、5M、50M表示随机取的子集。


image.png

2) Global nucleotide mismatch rates
包括A·T>C·G, A·T>G·C,A·T>T·A, C·G>A·T, C·G>G·C 和C·G>T·A六种错配类型。

  1. 体细胞变异检测
    1) 变异检测
    软件:SAMtools v0.1.8-13
    参数:-r 7×10-7 -M 255
    过滤:
    a. Filter 1.1:过滤低质量
    软件:SAMtools
    参数:varFilters
    Minimum Root Mean Square of base quality 43
    Minimum consensus quality 20 SNP quality 50
    b. Filter 1.2:深度过滤
    利用与芯片一致的变异进行深度评估定下过滤标准:过滤掉深度<5×(germline)和<10×(tumor)的低深度位点以及>100×的高深度位点
    2) 识别体细胞突变(以下过滤过程均是用perl脚本实现)
    通过比较germline和tumor之间的变异,并通过严格的过滤获得体细胞突变,过滤步骤如下:
    a. Filter 2.1 High quality in matched germline and tumor samples:利用质量值和覆盖度两个指标过滤掉在germline或者tumor中质量值低的变异位点。
    b. Filter 2.2 Novel variants:过滤掉在dbSNP数据库或者在千人基因组中存在的变异位点。
    c. Filter 2.3 Somatic variants:过滤掉在germline和tumor中均存在的位点以及仅在tumor中存在但在germline中有2个以上reads支持突变碱基型的变异位点。
    d. Filter 2.4 High supporting read diversity:过滤掉支持reads的起始位置少于3的变异位点
    e. Filter 2.5 Normal local mismatch rate:过滤掉局部比对率(LMR)高于预期的变异位点
    f. Filter 2.6 Unbiased global nucleotide mismatch profile:通过全局核算错配率过滤掉由于福尔马林固定引入的有偏向性的碱基替换。

主要结论与结果展示

1. 福尔马林固定诱导的DNA损伤的特点

1) FFPE样本DNA损伤特点:引起大量的点突变,突变在不同细胞、同一细胞不同染色体位置上突变的方向各异,造成整体上随机突变的模式。
2) FFPE引起的损伤模式可以被识别,并在分析的过程中进行校正。
3) FFPE样本的比对率通常比正常样本低10%左右。
4) FFPE样本中错配率在1以上的reads的比例是正常样本的1.5-2倍。
5) 不同FFPE样本间DNA损伤程度不同。
6) 可通过1M reads的错配率来评估FFPE样本DNA的损伤程度。
7) 同时也可以通过地深度测序来评估FFPE样本DNA完整度。
8) 通过对global nucleotide mismatch rate分析发现,C·G -> T·A突变类型是其他类型的1.5-1.8倍

2.变异检测和质量评估

1) 测序数据检测到的变异与芯片之间的一致性比较高:96.9%(06408;germline)、96.8%(02542;germline)、96.6%(06408;FFPE)、92.7%(02542;FFPE;该样本的under-called alternate alleles较高,约21%,导致一致性稍低)。
2) 各样本检测到的变异数量以及过滤后的变异数量见下图:


image.png

3. 体细胞变异检测和过滤

1) 利用方法中体细胞检测和过滤方法,每步检测到的变异个数如下图所示:


image.png

2) 过滤后突变频谱改善明显,如下所示,

过滤前:


image.png
image.png

过滤后:


image.png

读者的解读与思考

利用二代测序从基因组层面剖析癌症机制是一种常规的研究手段。从癌症机理解读的角度将,需要大量的癌症样本进行有效分析,而冷冻癌组织量明显不能满足大样本研究需求,使得样本收集困难;从基因组研究成果的临床转化来讲需要对临床诊断样本进行长期保存,并对发病的不同阶段进行动态的分析,目前福尔马林固定并利用石蜡包埋(FFPE)进行长期保存是癌症病理分析中常用的诊断和样本保存方法。如果能利用FFPE样本进行测序分析,那么将有效的推动癌症研究进展。Identification of high-confidence somatic mutations in whole genome sequence of formalin fixed breast cancer specimens一文详细描述了如何利用FFPE样本检测高质量的体细胞变异。同时Targeted or whole genome sequencing of formalin fixed tissue samples potential applications in cancer genomics一文提出了一种低DNA起始量的FFPE样本文库构建方法,并构建了FFPE样本全基因组重测序、全外显子重测序、目标区域捕获文库,并通过本报告介绍的方法检测到了高质量的体细胞变异。除此之外Genomic Characterization of Brain Metastases Reveals Branched Evolution and Potential Therapeutic Targets和Genomic Correlates of Immune-Cell Infiltrates in Colorectal Carcinoma两篇文章也均是利用FFPE样本进行的研究,均发表在高水平期刊上。这也彰显了对FFPE样本基因组特征研究、变异校正的重要性。

流程开发思路

Identification of high-confidence somatic mutations in whole genome sequence of formalin fixed breast cancer specimens一文中提供了几个perl脚本,可直接用于假阳性变异位点的过滤,过程如下:

  1. 检测体细胞突变
  2. calculate_global_nucleotide_mismatch_rate.pl
    在全基因组范围内计算全局突变错配率;
  3. filter_on_lowReadDiversity_and_or_calc_localMismatchRates.pl
    1) 过滤掉支持reads的起始位置少于3的变异位点,并过计算过滤后变异位点的局部错配率;
    2) 选取“gold standard”位点,并计算这些位点的局部错配率,用与进一步计算Q值 ;
  4. filter_on_local_mismatch_Rates.pl
    根据“gold standard”位点的Q值确定阈值,进而过滤候选变异位点;
  5. filter_on_globalNucMismatchRate.pl
    用1)计算出全局变异率完成进一步的过滤,得到候选变异位点。
  6. 绘制优化前后的突变频谱图

参考文献
1) Identification of high-confidence somatic mutations in whole genome sequence of formalin fixed breast cancer specimens
2) Targeted or whole genome sequencing of formalin fixed tissue samples potential applications in cancer genomics
3) Genomic Characterization of Brain Metastases Reveals Branched Evolution and Potential Therapeutic Targets
4) Genomic Correlates of Immune-Cell Infiltrates in Colorectal Carcinoma

上一篇 下一篇

猜你喜欢

热点阅读