【文献分享】玉米胚乳单细胞图谱
最近,中国农业大学在Nature Communications发表了题为“Decoding the gene regulatory network of endosperm differentiation in maize”的paper。这也是首次在作物胚乳中构建了单细胞图谱,为作物产量以及品质改良提供了重要的数据支撑。
Decoding the gene regulatory network of endosperm differentiation in maize=====实验设计=====
以前研究发现,授粉后6-7天是玉米胚乳细胞早期分化发育的关键时间段。在这一时间段,胚乳细胞分化形成主要的细胞类型,为随后的细胞增殖和营养储藏提供了保障。所以,在这个文章中,作者也是对6-7天的玉米胚乳进行取样,进行想逛原生质体的制备。
=====实验结果========
1. 玉米胚乳单细胞图谱构建
获得6-7天胚乳的原生质体后,作者使用10X构建了4个单细胞测序文库(其中是6天的,3个是7天的样品)(图1a)。最周获得了17022个细胞,总共25365个基因表达(图1b)。每个cell中平均有2005个基因表达。原生质体的普通RNA-seq和scRNA-seq的相关性高达0.83,并且不同重复之间的重复性较好。
降维聚类之后,获得了18个cluster,每个cluster的细胞数目从82到2484不等。然后对于每个cluster的特异表达基因进行了鉴定,从而对于玉米的胚乳细胞类型进行注释(图1b),其中包含一些非常出名的胚乳特异基因,比如ESR2。然后,就是利用一些marker基因,比如ESR1/2/6注释为embryo-surrounding region。MRP1, BETL9, TCRR1注释BETL细胞。MS8,SWEET15a,PEBP11注释ESA等(图1c,1d,1e,1f)。
总的来说,使用已知的细胞标记基因和原位杂交,把玉米胚乳的细胞类型共注释称为了7个类型,同时作者还发现了大量新的标记基因,这些结果都将为胚乳的细胞研究提供新的见解。
图1
2. 在已知胚乳的细胞类型中存在不同的cluster
玉米胚乳细胞包含不同的cluster,以为中这些不同的细胞类型之间存在异质性(图1,图2a)。所以作者重点探索12个不同cluster之间的特征差别(图2a),通过比较特异标记基因的表达模式。例如,尽管AL和SE的细胞类型都有自己的标记基因(例如,AL的SBT1和DHN1,SE的NAC130和FL3),但是也有类似的标记基因,包括ELFA9和HP1。这表明AL和SE之间存在密切关系,并说明这2个细胞类型在7天的时候还没有完全分化(图2b)。相反,被注释了ESR和cluster 15和被注释为BETL的cluster2/9则与其他细胞类型高度区分(图2b),过去研究也发现ESR和BETL比其他细胞类型分化都早。一般情况下,BETL很早就开始分化,ESR一般从4DAP开始分化。与早期EAS和SE的形态结构和空间未知类似,来自EAS的cluster 11和来自SE的cluster1/8转录特征也比较相似(图2b,2c)。
为了探索每个cluster的功能,作者对于每个cluster的特异基因进行了GO富集分析(图2d)。ESR(cluster15)中富集了“细胞-细胞信号传导”相关的基因,尤其是CLE相关的基因。“细胞呼吸”相关的基因在AL(cluster3/4)中富集,但在其他cluster不富集,预示着这些细胞在能量代谢中是活跃的。BETL则富集了大量与营养物质运输、防御和信号传导相关的基因。有趣的是,两个不同的BETL cluster可能具有不一样的功能,例如“蛋白质转运”和“蛋白质定位”相关基因在cluster 2中富集,而“细胞成分生物发生”和“对无机物质的反应”相关的基因在BETL簇9中富集。
激素在胚乳的发育中起着重要的作用,因此作者在UMAP图上展示了植物激素合成和响应相关功能基因的表达。结果表明植物激素合成和响应的基因在不同cluster中有不同的表达模式(图2e)。例如,生长素(AUX)合成基因在SE的cluster8/5中特异表达,而JA合成基因则在AL相关的cluster0/4/7中特异表达。比较而言,AUX和JA响应基因则没有这样强烈的表达。因此,植物激素在不同的细胞类型之间存在很大的差异。总之,这些结果意味着不同的细胞类型以及细胞类型内的细胞簇具有不同的生物学功能。
为了进一步探索细胞类型的异质性,作者开始比较同一个细胞类型不同cluster之间的差异。例如,在BETL细胞中,Bax抑制剂1(BI1)在cluster9中表达强烈,而gpm832,一种典型的BETL标记物,在cluster2中高度表达。丙酮酸脱羧酶1(PDC1)在SE的cluster1中高表达,而丙酮酸正磷酸二激酶1(PDK1)优先在SE的cluster8中表达(图2h)。这些BETL和SE中cluster特异表达的基因使得可以细胞BETL和SE成为亚细胞类型。过去研究表明BETL包括多层转移细胞,并且沿着顶轴进行发育。BETL标记基因的表达模式和实验ISH结果都符合这种梯度模式(图2f,2g)。因此,BETL的cluster2可能代表最外层基底层的转移细胞,其中表达了大多数典型的BETL标记,而cluster9代表更靠近胚乳内部的转移细胞层。SE细胞是细胞分化后形成的内部细胞,通过来自内胚层外部区域的亚异亮氨酸细胞的外膜分裂。ISH结果显示,与在BETL相比,这些测试的探针具有不太明显的空间模式。例如,在SE的cluster1中强烈表达的PDC1和1d045392则在与AL相邻的SE细胞的外层中更强烈地表达。另一方面,cluster8强烈表达的基因PDK1和CNGT1位于SE细胞的底部,靠近BETL和胚胎(图2h,2i)。这些结果为进一步剖析它们的发育差异提供了基础。
总之,这些结果突出了单细胞分辨率下胚乳组成的异质性,并证明了玉米胚乳细胞类型中复杂的转录特征。
图23. 胚乳分化过程中的转录特征
玉米胚乳的分化一般分为两个阶段:早期(4-6 DAP)和晚期(8-12 DAP)。为了探索早期和晚期分化的机制,作者重新分析了12个cluster的转录数据。UMAP图表明用6天和7天的数据可以检测到所有的cell cluster(图3a)。但是,一些cluster的大小在不同时间内发生了显著变化(图3b)。例如,ESR的cluster15的细胞数显著增加(从6 DAP时的0.1%增加到7 DAP时超过1.2%)(图3b)。此外,差异表达分析揭示了每个cluster中具有时间特异性富集的基因,表明这些cluster正在经历剧烈的分化过程(图3c)。我们将其定义为cluster中随着时间特异性(CCTS)基因。例如和6DAP相比,AL中cluster 0/3/4/7中防御相关的基因DEF1/2表达在DAP7 中明显上升(图3c)。有趣的是,很多一部分CCTS基因也是cluster的标记基因。例如MEG1/3是CCTS基因,同时也是BETL相关cluster2的标记基因(图3c)。并且很多CCTS基因的表达模式与以前RNA-seq数据得出的结果类似(图3d),进一步进一步说明了早期分化过程中基因表达的时间和空间之间的密切关系。
接下来,基于6 DAP和7DAP的数据来鉴定随着时间上调和下调的基因。然后利用这些基因对于每个cell的分化程度打分,最终获得了12个cluster的分化轨迹(图3e,3f)。
AL和SE在空间位置是相邻的,并且在某些条件下是可以互相转换的。为了探索细胞分化的机制,作者使用CytoTRACE分析来7DAP的AL相关的cluster(0/3/4/7)和SE相关的cluster(1/8),以及2个相邻的cluster 5/6。Monocle2将随时间有序的细胞投射到两个不同的分支中,并揭示了两种末端状态,代表分化程度更高的AL和SE(图3g)。细胞排序结果表明,与SE相比AL分化的细胞相对较少。有趣的是,除了一些AL和SE的特异标记基因(如AL的AL9和SE的FL3),还有两种细胞类型特异的特征基因,说明这2个细胞类型可能有共同的祖细胞(图3i-k)。例如,在这2个细胞类型中都高度表达的一个基因(1d038865),编码60S核糖体蛋白(图3k),它是拟南芥AT2G19730的同源基因,并且以往报告中在QC中是标记基因,说明他们的祖细胞可能和分生组织具有相似的特性。
图34. 基于ampDAP-seq的TF结合位点分析
细胞cluster的转录特征很大程度上有它们的基因调控网络(GRN)来决定,其中主要是TF驱动的。因此,鉴定全基因组TF结合位点(TFBS)对于GRN的鉴定至关重要。作者使用优化的mpDAP-seq来鉴定全基因组TF结合位点。结果作者成功获得了161TF,大概24个家族的结合位点(图4a-4c)。
鉴定出来的motif大多数和JASPAR数据库中的一致,说明作者方法的准确性较高(图4d)。总的来说,作者获得了超过200万(2506059)个非重叠的TFBS基因座,每个TF的大约有79258个结合位点。接着作者highlight了几个重要的TF结合位点。例如SE和BETL中代表性一些转录因子,如16kDa玉米醇溶蛋白(ZP16)、脆性胚乳2(BT2)、BETL10和基底层抗真菌蛋白2(BAP2),NRP1和MRP1与这些已知靶点的结合峰,进一步支持了转录因子数据的有效性(图4e)。然后作者和已经发表的数据做了对比。从公共数据中共获得了136个TF的311,832个结合位点。相比他们,作者的方法可以覆盖39%的预测位点覆盖,但是已知的数据只能做到12%(图4f)。
5. 基于TF结合位点和共表达网络鉴定调控regulon
单细胞level的基因表达谱为研究基因调控提供了潜在的特征。作者用GRNBoost2来进行regulon的鉴定【感觉pySCENIC的第一步,不知道为啥不用pySCENIC】。最后获得了包含25258个节点(1793个TF)和3233871个边的调控网络,几乎包含所有的检测到的基因(图5a)。通过只保留高quality的边,最终获得了24083个nodes(1746个TF)(图5a)。然后作者根据网络拓扑结构去鉴定类似hub node的调控节点(图5b)。其中包含 一些调控胚乳发育的重要的转录因子,比如NAC130和GL3,从而说明作者构建网络的准确性。
整合前面ampDAP-seq、发表的DAP-seq和胚乳中的体内ChiP-seq分析的转录因子的GRN和TFBS信息后,坐着获得了含有12360个基因(181个TF)的网络(图5a),每个regulon大约含有70个基因(图5c),并且是一个scale-free的网络(图5d)。然后作者对于每个regulon进行了GO富集分析(图5e),试图预测regulon的功能。例如NRP1和其可能靶标与“肽生物合成过程”和大分子生物合成相关,这与其在储存蛋白生物合成中的功能一致。
然后,基于RNA-seq和CHIP-seq来评估regulon内靶标的准确性。可以看出加入TFBS的数据后,ROC curve从只有单细胞共表达数据的0.569升到了0.702(图5f)。并且任何给定的Recall,加入TFBS的准确率都较高(图5g)。
图56. 鉴定细胞类型特异的regulon
为了将regulon和细胞类型关联起来,作者使用AUCell来鉴定细胞类型特异的regulon【不就是pySCENIC吗】(图6a-6l)。与之前的研究一致,MRP1是BETL的主要调控节点,是与BETL cluster9相关的特异的TF之一。O11和NKD2是与SE cluster8相关的两个特异的TF,它们都是众所周知的SE的调节节点。通过UMAP图显示,也可以看出这些regulon是与特定的细胞类型相关的。这些结果都说明这种方法可以成功鉴定细胞类型相关的regulon。因此我们为每个cell cluster预测了新的TF。例如BZIP52、WRKY8、EREB111、BZIP48和WRKY71具有与AL相关的高RSS值(图6a)。NACTF65、THX35、NACTF61、ARFTF7和ARFTF7具有与ESR cluster15相关的高RSS值(图6j)。为了建立热古龙与AL和SE分化之间的联系,作者对cluster0、3、4、7、5、1、8和6中最特异regulon的TF进行了热图分析。分析显示,与这些细胞类型的分化相关的转录因子沿着假时间表现出独特的时间表达模式,没有任何重叠(图6m)。总之,这些发现为研究胚乳的细胞分化提供了宝贵的靶标。
图67. 参与胚乳分化的regulon形成一个综合的调控模块
为了分析不同regulon之间的关系,作者系统了评估了TF和它们靶标之间的组合特征。过滤掉低质量的TF后(少于5个靶标),作者将168个regulon分为了10个模块(M1-M10)(图6n)。然后作者计算了每个module的RSS score(图6o),来关联每个module和不同的cell。例如M8中在cluster 2和9中特异,并且包含BETL的重要调控基因MRP124。M1在cluster 1/8中富集,包含O1146,O1146是玉米胚乳发育和玉米醇溶蛋白合成调控网络的核心基因。
一般越是相近的cluster(图6p),越是可能含有相似的regulon。例如BETL的cluster2和9之间的PCC值高于cluster2/9与其他cluster之间的PCC,这表明它们之间的相关性更强。所以作者用桑基图展示了module和各个cell cluster之间的联系(图5q)。例如,M2、M4和M9连接到属于AL细胞的cluster0,并且M8和M10与代表BETL细胞的cluster2相关。因此,我们提出细胞的发育命运可能受到多个核心调控网络的调控。
接下来,作者尝试去验证网络中预测出来的一些新的调控基因。例如,作者确定EREB108、MYBR19和MYBR29是与BETL cluster2和/或9相关的关键调节因子,这意味着它们在BETL发展中的关键作用(图6)。然后作者对于这些TF的突变体进行了RNA-seq。结果表明这些TF预测靶标很多都差异表达(图7a,7b),并且这些差异表达的基因大多数在BETL细胞类型中表达(图7c)。先前报道的与BETL相关的基因,如MRP1和SWEET4C56,在这些突变体中下调,表明BETL分化存在缺陷(图7d)。显微镜检查显示,与野生型相比,mybr29突变体中的转移组织包括缺乏或具有更少细胞壁向内生长(CWI)的细胞(图7e)。与这一组织学观察结果一致,1d053785(一种BETL标记基因)的ISH测试显示,在突变体胚乳中表达的区域较低(图7f)。与野生型相比,还观察到mybr29突变体的成熟种子中具有降低的粒重表型,这可能是由于BETL中的这些分化缺陷(图7g–j)。总之,这些结果进一步支持了MYBR29在BETL发育中的重要作用。总之,这些功能缺失突变体的转录组特征和发育缺陷表明,这些转录因子是BETL发育的重要调控基因。
图7