cfDNA fragmentomics分析:WGS低深度测序(4
还是那家公司:Geneseeq Research Institute, Nanjing Geneseeq Technology Inc., Nanjing, Jiangsu, China
前面已介绍同一家公司的文章有:
肺癌早筛:cfDNA fragmentomics分析-cfDNA片段多组学肺癌早筛研究 https://mp.weixin.qq.com/s/hG8pWgWEvlHTZaT6i4TlmQ
结直肠癌:cfDNA fragmentomics分析-多维片段组学方法对结直肠晚期腺癌和腺瘤早期检测 https://mp.weixin.qq.com/s/rNyhlm9IaT2MHjbUFlpfVQ
熟悉的配方,只不过这次是肝癌,还是看看在肝癌里面的效果吧。
原发性肝癌(PLC),包括HCC、肝内胆管癌(ICC)和联合HCC-ICC(cHCC-ICC)的早期检测对患者的生存至关重要。本研究旨在开发一种准确、经济的方法,利用cfDNA片段组学谱早期检测和鉴别ICC和HCC。嗯,这个除了区分健康样本和癌症样本,还可以区分ICC和HCC???
文献基本假设
cfDNA的研究为实体恶性肿瘤的诊断提供了一种无创的方法,如液体活检中的PLC。cfDNAs代表了从细胞凋亡和坏死释放到人体体液中的细胞外DNA片段,如血浆,因此携带了来自细胞和组织来源的遗传和表观遗传信息。
cfDNA features有以下这些:FSR、FSD
Fragment Size Ratio (FSR) 和 Fragment Size Distribution (FSD)
FSR定义:the short, intermediate, and long fragments were defined as 65–150 bp, 151–220 bp, and 221–400 bp, according to the overall fragment lengths profile,将genome-wide按照5 Mb bins进行分窗,得到572 bins,最后得到1716 (572 bins × 3) FSR个特征
FSR特征检测了整个人类基因组中不同大小片段的比例,因为cfDNA片段在癌症患者的血浆样本中可能异常短和长。对每个样本中的FSR,进行Z Score标准化,并作为模型训练的输入。
FSD定义:FSD通过将范围为65 bp and 400 bp的cfDNA片段以5 bp的窗口进行划分([400 - 65]/5 = 67 bins),检测了更高分辨率的片段长度模式。利用每个染色体臂水平上每个bin中片段的比例计算FSD。总共有41 chromosome arms,生成2747 (41 arms × 67 bins)个FSD特征,并进行Z score标准化作为模型训练的输入。
这两个特征如下:
image-20231007014753859.png文献思路设计如下:
训练集362个样本:192个癌症样本,170个对照样本;
测试集354个样本:189个癌症样本,165个对照。
分析步骤:
这个文章只用了两个片段组学的特征FSR、FSD
模型输入:A total of 4463 features, including the FSR (572 × 3 = 1716 features) and FSD (41 × 67 = 2747 features) profiles。
[图片上传中...(image-20231202125812210.png-9c808a-1701496046223-0)]
主要结果
第一个模型是区分PLC与对照样本,用的4X coverage WGS data。
the stacked model模型比单一指标FSR或FSD构建的预测模型结果好:
- As shown in Figure S1, the stacked model showed superior AUC (0.995; 95% CI, 0.989–1.000) than both base models using FSR (0.993; 95% CI, 0.983–1.000) and FSD (0.991; 95% CI, 0.984–0.998)
- The stacked model also exhibited a higher sensitivity for PLC detection (96.8%; 95% CI, 93.2%–98.8%) comparing with the base models (FSR, 93.7%; 95% CI, 89.2%–96.7%; FSD, 84.1%; 95% CI, 78.1%–89.0%) (Table S2)
测试集中的结果
image-20231202125812210.png image-20231202125846332.png训练组和测试组的片段组学特征热图。按不同重要性排列的前100个特征的热图:
image-20231202130003087.png区分不同Subgroup
感觉这块关于样本使用文章描述的不是很清楚,每一个亚型都有3个以上的标签,而预测模型一般都是二分类。这些指标高的离谱啊。
image-20231202130702804.png测试集中不同亚群的敏感性评估结果:
image-20231202131014683.pngModel differentiating HCC and ICC
前面提到了模型可以预测HCC与ICC。文章构建了一个独立的预测模型,使用the 159 HCC and 26 ICC from the training cohort,使用evaluated using the 157 HCC and 26 ICC from the test cohort。结果:AUC of 0.776 (95% CI, 0.677–0.874)。
文章没有独立的验证数据集。
数据分析部分
- cfDNA extraction:QIAamp Circulating Nucleic Acid Kit (Qiagen)
- cfDNA concentrations检测:Qubit dsDNA HS Assay Kit (Thermo Fisher Scientific)
- WGS libraries构建:KAPA Hyper Prep Kit (KAPA Biosystems),In brief, 5–10 ng of cfDNA per sample was subjected to end-repairing, A-tailing, and ligation with adapters sequentially
- libraries quantify:KAPA SYBR FAST qPCR Master Mix (KAPA Biosystems)
- 测序:paired-end sequencing on NovaSeq platforms (Illumina)
- fq数据过滤:Trimmomatic
- 比对:BWA,GRCh37/UCSC hg19
- PCR duplicates removal:Picard toolkit (http://broadinstitute.github.io/picard/)
- 样本最终测序深度:4.45X to 24.04X (median coverage 9.935X)
- down-sampled:不同样本测序深度不一样,对每个样本降采样至统一的4X,这是按了最低下限
- 分析片段组学特征:Fragment Size Ratio (FSR)、Fragment Size Distribution (FSD)
迷惑点:他们的数据测序深度总是浮动很大,这个我不太理解,是原始数据测的应该差不多,然后每个样本质量情况不太一样导致后面过滤相差很大吗?原始数据测了多少也没公布过呀!
文献信息:
Hepatology. 2022 Aug;76(2):317-329. doi: 10.1002/hep.32308. Epub 2022 Jan 26.
Ultrasensitive and affordable assay for early detection of primary liver cancer using plasma cell-free DNA fragmentomics