【文献分享】植物lncRNA单细胞调控网络
lncRNA也算是近10年研究的热点之一了,我们以前实验室也做大量植物相关lncRNA的研究。lncRNA的功能也是多样化的,几乎参与了植物的各个生物学过程,相关的paper大家应该可以搜到很多。近年来,随着单细胞技术的流行,使得研究者能以更微观的精度去探索细胞间的异质性,当然lncRNA也是其中的一个点,今天分享一个关于利用单细胞技术探索lncRNA在细胞之间异质性的工作。这个工作是南京大学陈迪俊团队近期在在Plant Communications发表的工作。该研究通过整合分析已发表单细胞数据绘制了拟南芥幼苗期的细胞图谱,在此基础上解析了lncRNA的基因表达异质性及基因调控网络。
首先,作者通过整合数据,鉴定了包含24,848个lncRNA的参考转录本集合。然后通过整合28个已发表scRNA-seq数据集,构建了一个拟南芥幼苗期的单细胞转录组图谱。图1是整个研究的流程图。
图1基于整合的单细胞图谱,作者注释出了14个主要的细胞类型(图2A),例如表皮,根尖相关的一些细胞类型,维管束类,叶肉细胞,气孔等。然后鉴定除了常见的细胞标记基因(如2B)。同时,还鉴定除了每个cluster里面lncRNA标记(图2C就是每个cluster的top 10的lncRNA)。每个cluster作者又highlight了一个基因和lncRNA,查看了一下他们的表达情况(图2D)。
图2然后作者利用一个叫做CIBERSORT的方法,用注释的细胞类型和传统的RNA-seq数据做关联分析。以前我也没用过这个R包,百度了一下。从示意图看上去通过signature gene把细胞类型和转录组的样本关联起来,看关联度的显著性,也可以看出那些细胞类型对每个样本的解释度【没有看原paper,理解不太深入】。
通过反卷积分析,不同的RNA-seq samples和不同的cell之间的关联度是不一样的(图3A和3B)。有些看上去能解释,有些我觉得看起来解释也很牵强,比如meristem和大部分的组织关联性都挺强的。然后作者highlight了前面发现的gene和lncRNA的marker的可以明显把关联的组织分开(图3C和3D)。
图3然后作者利用SCENIC构建了单细胞水平TF的调控网络(图4A),包含184 module,其中包含141个细胞特异的TF以及不同的target(基因和lncRNA)。为了验证构建网络的准确性,作者又利用已知根的RNA-seq数据,利用WGCNA也构建了mRNA-lncRNA的共表达网络,然后比较这2个网络的一致性(图4C),发现大部分SCENIC构建的module都可以和WGCNA构建的module对应。由于xylem相关的module一致性最高,所以作者分别查看了TF-lncRNA,TF-gene的correlation系数,然后发现通过单细胞数据预测出来的这些TF-target对的系数都普遍大于RNA-seq数据(图4D)。从这个高相关module的表达值也可以看出基本是在xylem中表达的(图4E)。用这个module中的gene做富集分析也可以看出,基本功能都是和cell wall biogenesis以及xylem devlopment相关的(图4F)。
图4基于上面的分析,我们可以合理假设:在同一个TF调控module里面的lncRNA,我们可以通过其中互作基因的功能来预测未知lncRNA的功能。比如刚才highlight的xylem相关的module,其中包含一些已知的比较重要的TF:ANAC007,ANAC030(图5A和5B),以及一些靶标基因:WOX14和ANAC075(图5C)。基于此,作者从其中挑选和这些基因高度表达的lncRNA进行验证(图5D),如:AthLNC018000和AthLNC011193。从scPlantDB里面已知数据的表达值也可以看出,基本在xylem相关的组织表达。荧光结果也表明这2个lncRNA确实在xylem中表达(图5F)。
图5