「文献03」从lncRNA的角度进一步挖掘发表过的单细胞转录组测
结合单细胞测序和功能筛选揭示lncRNA H19对胚胎造血干细胞发育的关键作用
日期:2019年1月19日——2019-Week3
分类:「思路」
题目:Combined Single-Cell Profiling of lncRNAs and Functional Screening Reveals that H19 Is Pivotal for Embryonic Hematopoietic Stem Cell Development
DOI: https://doi.org/10.1016/j.stem.2018.11.023
杂志: Cell Stem Cell,February 7, 2019
关键词: single cell lncRNA, H19, HSC
摘要
这篇文章通过对该实验室16年发表的造血干细胞单细胞(HSC)测序数据的进一步挖掘,筛选出了6个影响造血作用的lncRNA,然后验证了其中的一个lncRNA H19的功能,发现H19 通过使HSC的转录因子(Runx1, Spi1)的启动子甲基化的机制在内皮细胞向HSC转化过程中发挥着重要作用。
文章思路如下:
-
构建造血干细胞发育的单细胞lncRNA整体图谱
首先是从单细胞RNA-seq数据筛选lncRNA,统计已知的未知的lncRNA以及每个发育时期的lncRNA数量,然后分析lncRNA与邻近基因的共调控关系,lncRNA-mRNA相关性分析和SOM(self-organizing maps)表达异质性分析。 -
通过生物信息学和功能筛选鉴定到6个影响造血作用的lncRNA
根据差异lncRNA和lncRNA的功能特征,筛选从EC-T1 pre-HSC发育过程中上调的lncRNA,属于pre-HSC特征的lncRNA,和在物种中保守性强的lncRNA,最后筛选到10个lncRNA:AI662270, Gm28875, 4930538E20Rik, Gm28177, RP23-95l4.3, Gm15135, 4933439C10Rik, 1700113A116Rik, Gm17275, H19。然后结合敲低实验,发现10个lncRNA中有6个lncRNA有表型( H19, AI66270, 4933439C10Rik, Gm15135, Gm17275, 1700113A16Rik)。其中H19敲低后,表型最显著。 -
lncRNA H19的缺失导致AGM区内皮细胞生成HSC失败
实验验证H19的缺失导致AGM区内皮细胞生成HSC失败 -
H19缺乏导致pre-HSC中的Runx1和Spi1启动子高甲基化
进一步验证H19的发挥作用的机制
1. lncRNA单细胞水平整体变化以及与mRNA的相关性分析
128个单细胞lncRNA图谱,6个细胞类型,ployA+捕获转录本,共鉴定到7312个lncRNA,其中6911个lncRNA是已知的有注释的,401个lncRNA是未未知的,13786个蛋白编码基因。每个细胞中的lncRNA基因的平均数量明显少于mRNA基因,而lncRNA转录本在T2谱系最高,mRNA转录本在T1时期最高。
然后对lncRNA和其临近的基因做相关性分析,定义>5kb的为trans,< 5kb的cis作用,并根据lncRNA和mRNA的作用方式分为6种类型,最后对这几种类型的lncRNA从进化的角度在不同物种间做了保守性分析。
2. HSC发育过程中lncRNA的差异变化和功能特征注释
分别对lncRNA进行差异分析和PCA分析,可以看出lncRNA在发育的不同时期具有异质性,T1,T2和BM HSC中的lncRNA共有12个overlap,F图用circos展示了lncRNA与其临近的5个基因的相互关系。
3. 体外筛选调控造血作用的lncRNA
首先筛选从EC-T1 pre-HSC发育过程中上调的lncRNA,属于pre-HSC特征的lncRNA,和在物种中保守性强的lncRNA,最后筛选到10个lncRNA:AI662270, Gm28875, 4930538E20Rik, Gm28177, RP23-95l4.3, Gm15135, 4933439C10Rik, 1700113A116Rik, Gm17275, H19。然后结合敲低实验,发现10个lncRNA中有6个lncRNA有表型( H19, AI66270, 4933439C10Rik, Gm15135, Gm17275, 1700113A16Rik)。其中H19敲低后,表型最显著。
4. lncRNA H19的功能研究
lncRNA H19缺失导致AGM区内皮细胞生成HSC失败
5. H19发挥作用的机制
H19缺乏导致pre-HSC中的Runx1和Spi1启动子高甲基化
方法
单细胞数据的处理分析方法:
SMRT-seq测序,TopHat比对,HT-seq定量,scde package做的差异分析,分别对所有基因和top500基因做PCA分析。lncRNA和临近编码基因的表达关联用的是Circle tools(http://www.genome.org/cgi/doi/10.1101/gr.092759.109)。拟时间轨迹分析用的是Monocle,T-SNE用的是tsne package, TF网络分析用的是Fantom5 mouse TFs, 网络图绘制用的是Cytoscape。
相关性分析:
pairwise Pearson相关性分析每个lncRNA和其临近的5个基因。GO注释用的 PANTHER (http://www.pantherdb.org/).
Self-Organizing Maps
SOM是人工神经网络的一种类型,基于无监督学习训练模型生成输入的训练样本空间的低维(通常是二维)离散表示。这里用于将具有相同表达模式的lncRNA和mRNA聚类,然后可以通过在相同cluster的编码基因的功能预测lncRNA的功能。
未知的lncRNA的从头组装和注释
cufflinks组装,CPAT和PhlyoCSF软件对编码潜能进行评估。
数据集:
GEO: GSE67120
GEO: GSE108653.
这篇文章筛选候选lncRNA的方法值得学习,如通过lncRNA-mRNA相关性分析构建lncRNA-mRNA pairs,lncRNA的位置分析找出临近基因和trans作用的基因,以及结合深度学习的方法将具有相同表达模式lncRNA和mRNA聚类到一个cluster,然后由mRNA的功能预测lncRNA的功能,并结合差异lncRNA和功能试验筛选不断缩小候选lncRNA,最后选择一个与表型相关最强的一个lncRNA进行功能和机制的研究。