2021-03-05-单细胞测序分析胃腺癌的转录异质性
Dissecting transcriptional heterogeneity in primary gastric adenocarcinoma by single cell RNA sequencing--Gut--19
思路:单细胞测序→细胞分型→结合公共数据库将细胞分为恶性与肺恶性上皮细胞→结合转录异质性及病理染色揭示了SPEM的分化来源轨迹→研究恶性细胞的转录异质性→定义上皮分化相关基因及其正相关基因为细胞分化评分集,来分析肿瘤异质性→分析了lauren组织病理类型GA的分子特征→罕见亚型GA-FG-CCP的转录组分析→ebv+恶性细胞转录组分析
一、摘要
①我们对9个肿瘤和3个非肿瘤样本的27677个细胞进行了无偏转录组范围的scRNA-seq分析。
②我们对肿瘤细胞的综合分析确定了五个具有不同表达谱的细胞亚群。
③一组分化相关基因揭示了肿瘤内部和肿瘤之间分化程度的高度多样性。低分化程度可预测GA预后不良,其中3个亚组表现出不同的分化程度,与Lauren亚型的组织病理学特征相吻合。
④有趣的是,另外两个亚组显示出独特的转录组特征。
一个表达主细胞标记物(例如,LIPF和PGC)和RNF43的亚组激活Wnt/β-连环蛋白信号通路,与先前描述的胃底腺型GA(主细胞为主,GA-FG-CCP)一致。我们利用转录组学和组织学图像进一步证实了GA-FG-CCP在两个公共批量数据集中的存在。
另一亚组在eb病毒感染时特异表达免疫相关的标志基因(如LY6K和主要组织相容性复合体Ⅱ类)。
⑤此外,我们还分析了非恶性上皮,并为胃主细胞向MUC6+TFF2+解痉多肽表达的潜在转变提供了分子证据化生。(provided molecular evidences for potential transition from gastric chief cells into MUC6+TFF2+ spasmolytic polypeptide expressing metaplasia)
二、介绍
①肿瘤异质性包括形态异质性和基因异质性
②根据腺体结构的异型性和GA粘膜的分化程度,Lauren’s classification 将胃癌分为肠型和弥漫型,最近,混合型被建议用来描述中间组织学病例。
③肠型GA的特点是形成腺体结构,并表现出不同程度的分化,通常是通过具有良好特征的连续病理阶段发展起来的,如慢性胃炎(CG)、萎缩、肠化生和发育不良。
④弥漫型GA通常表现为低分化状态,以低分化浸润性生长为特征,与侵袭性行为和不良预后相关。
⑤另一个以组织病理学为基础的指南WHO分类4也被用于GA诊断,它将GA分为乳头状癌、管状癌、粘液性癌(胶质癌)和黏性差的癌(poorly cohesive carcinomas)。
⑥但这些研究依赖于大量组织的数据,并掩盖了不同细胞亚群的分子特征,而这些细胞亚群是遗传病分类的一个重要因素,限制了它们捕捉肿瘤异质性的能力
三、结果
①不同GA类型的单细胞转录组图谱
5个肠型GA样本,3个混合型GA样本,1个弥漫型GA样本和
3个非恶性样本(对照,一个来自邻近肿瘤的CG样本和两个来自胃息肉的正常样本)(图1A,B,在线补充图S1)。
③去除低质量细胞后(见在线补充材料中的“方法”部分),保留27677个细胞用于生物学分析,每个细胞检测到1227个基因和3809个转录物的中位数(在线补充图S2)。在基因表达标准化和主成分分析(PCA)之后,选取最有意义的前20个成分进行tSNE降维分析,剔除掉细胞数量<50个的成分,(DBClustDimension function)
最后将细胞划分为14个聚类。这些簇可通过标记基因分配给9个已知的细胞谱系(图1C-E):
②入选的病人都是新诊断的,没有被诊断出患有任何其他肿瘤。患者术前未接受化疗或放疗。这些受试者的临床特征,包括幽门螺杆菌感染状况、EBV感染状况、病理学特征和根据Lauren系统进行的肿瘤分类
image.png image.png2、恶性上皮与非恶性上皮细胞的分类
①使用TCGA配对的肿瘤与正常组织的表达数据定义最初的良恶性上皮细胞评分。(使用Kmeans)
image.png
②因为TCGA的组织中含有非上皮细胞类型,这种良恶性上皮细胞评分是由偏倚的,我们接下来在假定的恶性和非恶性上皮细胞之间产生差异表达的基因,重新计算恶性/非恶性评分并分类上皮细胞。我们反复这个过程直到分类结果稳定。最后鉴定出了5635个恶性细胞和4776个良性细胞。(2A-2C)
image.png③许多恶性上皮细胞中高表达的基因被鉴定出来,非恶性上皮高表达与胃粘液和消化酶分泌相关的标志基因,并对这些良恶性之间差异表达的基因进行基因富集分析。
image.png④对照正常组织来源的上皮细胞97%被推测到非恶性上皮细胞(S3D);
79.7%活检肿瘤组织细胞被推测为恶性上皮细胞,然而只有29.7%的手术切除样本被推测为恶性上皮细胞,说明电子镜活检更为精准的检测出了恶性细胞。
3、转录组分析揭示了主细胞、颈细胞和SPeM之间的关系
解痉多肽表达性化生(Spasmolytic polypeptide-expressing metaplasia,SPEM,一种肠化、胃腺癌的癌前病变)
①我们还对非恶性细胞进行了亚聚类分析,发现了四个不同的组(图3A)。
②G1组细胞占细胞总数的78.0%,通过TFF2、GKN1和MUC5AC基因的表达可区分为表面细胞(图3C)。G2组细胞表现出高水平的标记基因,如PGA3、PGA4和LIPF,并被定义为主要细胞(图3C)。
这些细胞缺乏主细胞成熟必需的bHLH转录因子MIST1的表达
③我们还发现G3细胞表达标志物PGA3和MUC6,可定义为增生性/肥大性粘液颈部细胞。26免疫染色也验证了这些表达(图3E)
④G4簇主要由癌变粘膜细胞组成。这些细胞的特征是颈部细胞标记物MUC6、化生转录物TFF2、CD44和SOX9以及主要组织相容性复合物II类(MHC-II)基因的高表达水平(例如,HLA-DPA1和HLA-DRA,图3C和在线补充图S5A),这使我们将它们定性为SPEM
⑤免疫组化还显示,主细胞、颈细胞和SPEM共存于同一组织中,从胃腺基部到腺颈逐渐排列为主细胞、颈细胞和SPEM的顺序,支持主细胞到颈细胞再到SPEM的推断(图3E)。
image.png
⑥我们使用Monocle分析工具包进行细胞轨迹分析,以进一步研究细胞类型之间的潜在转换。从Monocle得到的假时间轨迹轴表明,主细胞可以转分化为粘膜颈细胞,然后再分化为SPEM(图3F)。
⑦伪时间依赖的基因表达热图
特异性代表基因的假时间表达动力学也标志着主要细胞向粘膜颈部细胞然后向SPEM的进展(图3G和在线补充图S5B)。
⑧本文的结果首次描绘了单细胞水平上主细胞的潜在分化路径,并表明它们可能产生化生细胞(图3H)。
4、GA恶性细胞的转录异质性
①作者对5635个恶性细胞进行聚类分析,发现了5个显著的细胞亚群(C1-C5)。恶性细胞主要根据Lauren的组织病理学类型和背景因素(EBV感染)进行分组(图4A)。
②9名患者的C1-C5比例不同(图4C)
③C1几乎全部(96.9%)来自弥漫型样本(DGC)的恶性细胞,
而C2主要来自肠型样本(IGC)(97.1%);
C3含有混合型(MGC)和肠型样本细胞的混合物。
C4主要来源于一个肠型GC样本(IGC3),
C5包括来自EBV+患者(IGC5)的细胞(图4B)
image.png
④通过比较基因表达谱(图4D),我们发现C1/C2/C3与劳伦分类的三个典型亚型一致,C4/C5是两个新的细胞亚型,与C1/C2/3相比具有明显的分子特征(图4A,在线补充表S3)。
⑤众所周知,胃癌具有不同的分化程度。我们的数据显示,上皮分化相关基因KRT20在肿瘤细胞中的表达是不同的。为了定量探讨肿瘤内及肿瘤间恶性细胞的分化异质性,我们定义了一个基于KRT20及其正相关基因(即PHGR1,30MDK,31CHDR2,RARRES3,32GPA33,33SLC5A134和MUC13,34(在线补充表S3))的分化评分成为细胞分化相关的制造者(图4E),不同亚组和患者的分化评分不同(图4F),显示出高度的肿瘤间异质性。
image.png
⑥值得注意的是,我们还发现了诸如IGC1和IGC4等患者的高肿瘤内分化异质性,其中包含具有不同分化分数的两个不同细胞组(图4H),这也通过KRT20免疫染色进行了验证(在线补充图S6)
⑦IGC1和IGC4的恶性细胞从低分化到高分化显示出相似的假时间轨迹(图4H)。我们的结果表明,IGC1和IGC4中不同的细胞群可能代表两个不同的分化阶段。
⑧接下来,我们在大量转录组数据(TCGA STAD数据集)中评估肿瘤分化程度与患者预后的关联。对408名患者的生存率分析显示,低分化评分可以显著预测更差的总体生存率(图4I),这说明低分化程度的胃癌可能更具侵袭性。
5、经典lauren组织病理类型GA的分子特征
①C1、C2、C3的分子特征(5A)
②C1高表达一些在胃上皮细胞中广泛表达的基因(如CLDN18和TFF2)(图5B),但在C2中很少检测到这些基因。
③相反,C2表现出与小肠相似的重要分子特征,这是由肠细胞标记物(如APOA1和FABP2)的广泛表达所支持的(图5C)。这些结果也通过KRT20和CLDN18免疫染色进行了验证(在线补充图S7)。
④C3没有显示出明显的分子特征,但部分表达了C1和C2的两个标记,表明它是C1和C2的中间亚群,而不是C1和C2的混合物。⑤此外,我们观察到三个亚组之间的分化分数不同(图5D)。
⑥PHGR1、KRT20和MDK的表达水平在C2中最高,在C3中中等,但在C1中最低(图5E)。
⑦这些结果表明C1代表未分化状态的亚群,C2代表不同的分化良好的恶性细胞亚群,具有成熟肠细胞的特征,C3在C1和C2之间呈中间状态
6、GA-FG-CCP的转录组分析
①C4的恶性细胞(图6A)主要来自肠型GA样本IGC3(图4C)。
②H&E染色结果显示肿瘤部位位于胃底腺,主要由分化的颗粒细胞组成(在线补充图S8A)。我们的scRNA-seq数据显示C4广泛表达主细胞标记物(如LIPF、PGC和PGA3,图6B),并且表现出中等水平的分化评分(图5D)。
③我们鉴定了一些在C4中特异表达的基因,其中一些被报道调控Wnt/β-连环蛋白信号通路,即RNF4335(图6B)。
image.png image.png
④(GO)富集分析证实C4中的特征基因富集用于调节生长和Wnt/β-连环蛋白信号通路(图6C)。
⑤免疫荧光染色显示,这些细胞主要分布在胃腺基底部,MUC6和胃蛋白酶原-I(PGA3)共表达强烈(图6D)。
⑥C4亚组细胞的组织病理学表现和表型表达模式与GA-FG-CCP的细胞特征高度一致。
⑦为了进一步验证GA-FG-CCP的发现,我们研究了GA-FG-CCP是否存在于公共转录数据集中。在TCGA STAD数据集中,应用无监督非负矩阵分解(NMF,在线补充图S8B,见在线补充材料中的“方法”部分)对86例肠型患者进行聚类分析。
⑧在NMF鉴定的四个簇中,我们注意到簇3(n=11)高表达C4亚群特异性基因,但很少表达肠细胞标志物(图6E)
⑨在第3组中,用于NMF的C4特异基因的平均表达也最高(图6F)。
⑩有趣的是,在Wnt/β-catenin信号通路中作为重要信号转导子的CTNNB1,37在簇3中的表达显著高于其他簇(Student t检验,p=0.003)(图6G)
image.png
新加坡数据集8(在线补充图S8C)也发现了具有GA-FG-CCP分子特征的类似簇。
image.png
我们在GDC数据门户网站(https://GDC)上进一步检查了推测的GA-FG-CCP病例的组织病理学图像)。值得注意的是,大多数肿瘤组织样本(n=10)的特征是分化的胃底腺柱状细胞(在线补充图S8D和在线补充图S9),这与IGC3的组织病理学结果高度一致。
总之,我们的研究证实了GA-FG-CCP在单细胞水平上的分子特征,并验证了其在大量转录组数据中的存在,这可能增强我们对胃癌分子和细胞多样性的理解。
7、ebV+恶性细胞高表达免疫信号基因
①C5亚组几乎全部由患有EBV感染的肠型患者(IGC5)的细胞组成(图7A和4C)。
②C5中绝大多数细胞都显示出独特的分子特征:淋巴细胞抗原-6(Ly6)家族成员(如LY6K)和MHC-II基因(HLA-DPA1和HLA-DPB1)(图7B),这些基因与免疫反应紧密相关。
③GO富集分析表明,该亚组表现出高水平的免疫相关信号通路,如干扰素-α(IFN-α)反应、抗原处理和呈现(图7D),表明免疫细胞和肿瘤细胞之间可能存在细胞-细胞通讯。
image.png
④免疫染色证实了我们的发现,HLA II类分子和LY6K在EBV+病例中的表达水平高于EBV-病例(图7E)。
image.png⑤TCGA批量测序结果还显示HLA II类分子在EBV+样本中高度表达(图7G)
⑥此外,由于EBV感染B细胞,我们比较EBV+和EBV-患者B细胞周期的分期,发现IGC5中的循环细胞(S和G2M)多于EBV患者(图7H)。
我们的分析揭示了EB病毒感染GA患者恶性细胞独特的分子特征,这突出了EB病毒诊断对GA组织学分类的必要性
方法
单细胞基因表达定量,质控,细胞分型
The sequencing data from 10x Genomics were aligned and quantified using the CellRanger software package (version 3.1) against the human reference genome (hg19).
Seurat R package 对表达矩阵进行操作
线粒体的UMIs超过15-25%的细胞被过滤掉(不同细胞标准不一,根据细胞内线粒体含量所设定的标准)
胃上皮细胞位于富含消化酶和胃酸的环境中,更新快(2-4天);此外,主细胞和壁细胞等能量代谢旺盛。因此胃上皮细胞可能和肝和肾细胞一样有着较高的线粒体含量
参考的是文献里的过滤方法:MacParland SA et al[1] and Park J et al[2],
具体标准是:
- cells had either fewer than 1001 UMIs, over 6,000 or less than 501 expressed genes, or over 50% UMIs derived from the mitochondrial genome
- cells had an average expression level of less than 2 for a curated list of housekeeping genes.
根据平均表达在0.125和3之间以及分位数标准化方差超过0.5,使用Seurat“FindVariableGenes”函数计算高度可变基因
使用HVGs进行PCA分析,significant top 20 principal components (PCs) were selected to perform tSNE dimensionality reduction;
All of cells were clustered using DBClustDimension function and clusters with cell numbers less than 50 were deserted.
无偏聚类产生14个主聚类,并根据典型标记基因对9种已知细胞类型进行注释。