【转载整合】RNAseq data的network analys
网络:其实就是“图”,由点(node)和边(edge)组成
一般来讲,探索基因表达数据的标准流程是这样:
-
差异表达分析: 研究转录水平不同处理的差别的原因
-
基因富集分析 (GO/KEGG)。得到差异基因,需要注释一下,但只能两两比较(如:实验与对照),然后得到的结果也只是知道哪些上调哪些下调,是一个宏观的结论
-
生物网络分析:
- 蛋白互作(PPI):表示蛋白之间物理联系,它们几乎占据了细胞生物过程的中心位置。蛋白作为点,用无向的线连接
- 代谢网络: 主要表示生化反应,有助于生物生长、繁殖、维持结构。点是代谢产物,并用有向的箭头表示代谢过程或特定反应的调节作用
- 基因互作: 不同的点表示不同基因,描述它们功能相关性;可以根据基因的背景知识来推断线的方向
- 基因/转录调控: 表示基因表达是如何被调控的;点是基因或转录因子,它们之间的关系也是定向,例如Reactome、KEGG等数据库中表示基因调节的关系
- 细胞信号: 点表示通路中的物质,如蛋白、核酸或其他代谢物
一、GO+KEGG分析功能注释
找出差异基因下一步进行功能富集分析
方案1:DAVID网站
- 进入 https://david.ncifcrf.gov/
-点击“Functional Annotation”输入不超过3000个基因的gene list;输入格式是每行一个基因名或者基因名用逗号隔开。 - 选择"OFFICIAL_GENE_SYMBOL"
- 选择"Gene list"
- 点击提交
- 点击“Gene_Ontology”进行GO分析,对基因进行功能注释,勾选GO分析的三个参数:BP(生物学过程),CC(细胞组分),MF(分子功能)。
- 找到“Pathways”,选择KEGG_PATHWAY
- 点击 Chart
-
点击其中一条通路的Term,查看通路图。
方案2:Metascape网站(网站更新较快)
-
输入基因,有两种方式,本地文件导入或者粘贴gene list,支持xls/xlsx,CSV,txt三种格式。
-
选择物种
-
选择“Express Analyze”或“Custom Analyze”进行分析
-
点击提交
-
点击“Express Analyze”查看结果
- Figure 1 : 功能富集分析的结果图
- Table 1: TOP20的聚类分析表
- Figure 2: 富集网络图,左侧是根据gene ID进行的聚类,右侧是根据P-Value进行的聚类
- Figure 3 : PPI聚类功能模块分析图。
二、蛋白互作(PPI)分析
表示蛋白之间物理联系,它们几乎占据了细胞生物过程的中心位置。蛋白作为点,用无向的线连接
分析方案:STRING网站+Cytoscape软件制作蛋白互作网络图(PPI分析)
-
进入STRING网站的官网: https://string-db.org/
-
通常选择输入方式是“Multiple proteins”
-
然后输入不超过2000个基因的差异基因名,每行一个基因
-
选择物种类型
-
点击“SEARCH”,继续点击“CONTINUE”
-
下拉当前页面,菜单栏的Legend选项卡里面是关于网络图中Nodes和Edges的注释
- 菜单栏的Settings选项卡可以对Edges进行调整。
- “confidence”是通过线条的粗细来反映蛋白之间相互作用的强弱。
- 如果网络图比较分散,可以设置“minimum required interaction score”将conbined_score调高,使图形看上去更紧密。
- 可以通过设置蛋白数量的上限,比如我们将其设置为“no more than 50 interactors”改变网络图上的蛋白数量
- 菜单栏的Analysis选项卡里面,可以查看network的一些信息,包括nodes、edges、degree、PPI富集分数的P值等,同时也能查看GO和KEGG功能富集信息及其他信息
-
Clusters选项卡,是将PPI网络进行聚类,点击APPLY。通过聚类后,蛋白通过聚类形成不同颜色的成簇分布的蛋白互作网络图。
- 直接点击“Exports”选项,下载TSV格式的文件保存,得到一张PPI图
利用网络聚类算法可以从复杂的蛋白质网络中挖掘蛋白复合体或者相应的功能模块,其中MCODE算法是最常用的挖掘蛋白复合体的算法。MCODE全称molecular complex detection, 是最广泛使用的挖掘蛋白复合体的算法之一,在cytoscape 软件中提供了一个MCODE插件,可以方便的对网络进行聚类。
cytoscape 是一个功能强大的网络可视化软件,除了基本的可视化之外,通过各种插件,还可以轻松的实现各种数据分析,插件的下载地址: http://apps.cytoscape.org/
- 打开Cytoscape软件,File-->Import -->Network-->file, 然后选择对应的TSV格式的文件,对PPI图进一步美化
- 依次点击Tools-->NetworkAnalyzer-->Network Analysis-->Generate style from statistics
- 在弹窗中操作:在Cytoscape软件中Node的大小和渐变颜色由Degree来调整,Edge的粗细和渐变颜色由combined_score来调整。
- 点击“Apply”
- 若要制作以某个蛋白为中心的PPI:例如选择IL10蛋白作为中心蛋白,首先点击该蛋白。依次点击File-->New-->Network-->From selected nodes,all edges。形成一张以IL10为中心的局部PPI网络。
- 使用
MCODE
插件,Apps-->MCODE, 启动MCODE插件,在控制面板,选择默认参数,对整个网络继续聚类
- 聚类之后会得到多个子网subnetwork, 对于每个子网,可以看到其节点数,边数,打分值等基本信息,通过
MCODE
插件,可以方便的得到复杂的PPI网络中潜在的各个子网,但是后续还是要结合功能注释,比如KEGG,蛋白复合物数据库的注释等,对结果进一步解读。
三、通过WGCNA构建的基因共表达网络
-
WGCNA基本概念:
-
加权基因共表达网络分析 (WGCNA, Weighted correlation network
analysis)是用来描述不同样品之间基因关联模式的系统生物学方法,可以用来鉴定高度协同变化的基因集,
并根据基因集的内连性和基因集与表型之间的关联鉴定候补生物标记基因或治疗靶点。 - WGCNA利用数千或近万个变化最大的基因或全部基因的信息识别感兴趣的基因集,并与表型进行显著性关联分析。一是充分利用了信息,二是把数千个基因与表型的关联转换为数个基因集与表型的关联,免去了多重假设检验校正的问题。
- 共表达网络:定义为加权基因网络。点代表基因,边代表基因表达相关性。加权是指对相关性值进行冥次运算
- Module(模块):高度內连的基因集。
-
Connectivity (连接度):类似于网络中 "度"
(degree)的概念。每个基因的连接度是与其相连的基因的边属性之和。 - Module eigengene E: 给定模型的第一主成分,代表整个模型的基因表达谱。
- Intramodular connectivity: 给定基因与给定模型内其他基因的关联度,判断基因所属关系。
-
加权基因共表达网络分析 (WGCNA, Weighted correlation network
- Module membershi): 给定基因表达谱与给定模型的eigengene的相关性。
- Hub gene : 关键基因 (连接度最多或连接多个模块的基因)。
- Adjacency matrix: (邻接矩阵):基因和基因之间的加权相关性值构成的矩阵。
-
TOM (Topological overlap
matrix):把邻接矩阵转换为拓扑重叠矩阵,以降低噪音和假相关,获得的新距离矩阵,这个信息可拿来构建网络或绘制TOM图。
分析流程:
-
数据导入,数据筛选,软阈值筛选(软阈值的筛选原则是使构建的网络更符合无标度网络特征)
-
构建基因共表达网络:使用加权的表达相关性。
net = blockwiseModules(dataExpr, power = power, maxBlockSize = nGenes,
TOMType = type, minModuleSize = 30,
reassignThreshold = 0, mergeCutHeight = 0.25,
numericLabels = TRUE, pamRespectsDendro = FALSE,
saveTOMs=TRUE, corType = corType,
maxPOutliers=maxPOutliers, loadTOMs=TRUE,
saveTOMFileBase = paste0(exprMat, ".tom"),
verbose = 3)
-
识别基因集,展示各个模块:基于加权相关性,进行层级聚类分析,并根据设定标准切分聚类结果,获得不同的基因模块,用聚类树的分枝和不同颜色表示
-
绘制模块之间相关性图:如果有表型信息,计算基因模块与表型的相关性,鉴定性状相关的模块。
-
研究模型之间的关系,从系统层面查看不同模型的互作网络。
-
从关键模型中选择感兴趣的驱动基因,或根据模型中已知基因的功能推测未知基因的功能。
-
可视化基因网络 (TOM plot): 导出TOM矩阵,绘制相关性图。
-
导出网络用于Cytoscape
-
关联表型数据
四、数据库
4.1 chipBase:转录因子调控网络数据
chipBase收集来自GEO,ENCODE数据库中的chip_seq数据,通过对这些原始数据进行分析,致力于构建各种转录因子与非编码RNA, 蛋白编码基因之间的调控网络
-
数据库构建的流程
-
该数据库将基因分成了以下几类
- LncRNA
- miRNA
- Other NcRNA
- Protein
-
功能:
1. 查看转录因子和基因间的调控网络: 首先确定感兴趣的转录因子,然后选择对应的数据集,再选择靶基因筛选的范围,最终确定转录因子潜在的靶基因
2. Regulator: 输入感兴趣的基因,查看有哪些转录因子可能调控该基因,点击factor
可以查看对应的详细结果,示意如下
3. Chip-Function: 对靶基因进行GO富集分析
4. Co-Expression: 分析转录因子和基因表达量的相关性
通过chip_base, 可以方便的查看转录因子与基因间的调控关系,还可以进一步结合转录组的共表达分析对结果进行筛选。
4.2 Co-LncRNA:lncRNA与蛋白编码基因的共表达网络数据库
Co-LncRNA
通过分析查找与lncRNA共表达的mRNA,构建lncRNA与mRNA之间的共表达网络,并通过共表达的mRNA对应的GO和KEGG来研究lncRNA的功能。
- 通过
CEGsFuncs
查看lncRNA的共表达mRNA的功能富集结果 - 选择数据集和共表达分析的方法,设置阈值,通过mRNA或者lncRNA的名字来查找对应的共表达基因,点击
pattern
可以查看详细的分析结果 - 通过
CEGsFuncs
查看lncRNA的共表达mRNA的功能富集结果,示意如下 -
对于KEGG富集的结果,点击可以查看具体的通路图,在通路图上,会将共表达的蛋白编码基因用红色标记
- 通过
CEGsNet
, 可以查看lncRNA与mRNA的共表达网络
五、LncRNA等RNA共表达网络
5.1 LncRNA和mRNA共表达网络
很多文献和数据库中都有报道的lncRNA与mRNA之间相互作用,也可以通过软件来预测二者之间的结合,通过lncRNA的靶标mRNA, 来研究lncRNA的功能。通常认为共表达基因集参与同一通路,或者受到同样的调控,具有相似的生物学功能,利用表达谱数据寻找与lncRNA共表达的mRNA,从而来研究
做lncRNA和mRNA共表达网络步骤:
- 用三列计算皮尔森相关系数
第一列:样本号。 第二列:lncR的表达量。 第三列:mRNA的表达量。
- 筛选显著结果
- 然后用cytoscape画图
- 研究lncRNA的功能。
5.2 LncRNA与miRNA共表达网络
长非编码RNAs(lncRNAs)和小分子RNA(miRNAs)的代表两类重要的非编码RNA在真核生物。虽然这些非编码RNA与有机体的生长和人类多种疾病有着密切的关系,但很少有人知道他们的转录调控。新一代DNA测序技术(ChIP-SEQ)染色质免疫沉淀的最新进展提供了前所未有的灵敏度与检测转录因子结合位(TFBSs)的方法。
miRNA与lncRNA的关系通过DIANA-LncBase数据库中获取
5.3 mRNA共表达网络图
构建mRNA-miRNA-lncRNA的三元ceRNA网络
5.4 LncRNA-TF-Gene网络通路的构建
在线的构建LncRNA-TF-Gene网络工具-LncMAP。此工具通过整合基因组广泛的转录调控与配对的lncRNA和基因表达谱,显示转录与其调节的靶基因以及lncRNA网络关系。对揭示人类癌症生物学机制有重要意义。