R语言之生信(11)五分钟学会用R语言构建ceRNA网络
2019-04-20 本文已影响272人
柳叶刀与小鼠标
目录
R语言之生信①差异基因分析1
R语言之生信②差异基因分析2
R语言之生信③差异基因分析3
R语言之生信④TCGA生存分析1
R语言之生信⑤TCGA生存分析2
R语言之生信⑥TCGA生存分析3
R语言之生信⑦Cox比例风险模型(单因素)
R语言之生信⑧Cox比例风险模型(多因素)
R语言之生信(9)R语言多个生存分析曲线比较
R语言之生信(10)多个探针对应一个基因的处理方法
R语言之生信(11)五分钟学会用R语言构建ceRNA网络
======================================
背景:
microRNA作为一种重要的调控因子,是长短约22nt的短链RNA,能够通过抑制目的基因的翻译或降解目的基因,从而反向调节目的基因的表达。而实际调控过程中不仅仅是简单的microRNA-mRNA的沉默机制,还有更为复杂的调控网络,一些非编码的RNA同样存在与microRNA的结合位点,在细胞中起到miRNA海绵(miRNA sponge)的作用,进而解除miRNA对其靶基因的抑制作用,升高靶基因的表达水平,也因此构建了庞大的ceRNA网络(ceRNETs),这一作用机制被称为竞争性内源RNA(ceRNA)机制。
材料
(1)mRNA表达矩阵(2)miRNA表达矩阵(3)lncRNA表达矩阵,他们的格式如下所示:
![](https://img.haomeiwen.com/i9218360/1bcfc164b791bfc0.png)
![](https://img.haomeiwen.com/i9218360/1301adc0529779af.png)
![](https://img.haomeiwen.com/i9218360/f80ce1afd515bddf.png)
我们想要的结果大致如下:
(1)寻找miRNA-mRNA调节关系对
(2)寻找miRNA-lncRNA调节关系对
(3)合并miRNA-mRNA、miRNA-lncRNA调节关系对,构建ceRNA网络
-
R语言运行的调控关系对如下所示:
根据相关分析,找到符合我们统计学要求(p < 0.05同时 correlation值小于-0.4)的关系对
第一步
读取数据集(将mRNA,miRNA和lncRNA表达矩阵读取进来)
library(reshape2)
library(dplyr)
library(tidyr)
rm(list=ls())
setwd('D:\\train\\data')
mRNA <- read.csv('mRNA.csv',sep = ',',header = T,row.names = 1)
miRNA <- read.csv('miRNA.csv',sep = ',',header = T,row.names = 1)
lncRNA <- read.csv('lncRNA.csv',sep = ',',header = T,row.names = 1)
第二步
去除单独的样本(因为有的样本可能做了mRNA测序,却没做miRNA测序。因此我们需要筛选出来那些同时做了mRNA,miRNA,lncRNA测序的样本)
a <- colnames(mRNA)
b <- colnames(miRNA)
c <- colnames(lncRNA)
sample <- intersect(a,intersect(b,c))
mRNA <- mRNA[,which(colnames(mRNA) %in% sample )]
miRNA <- miRNA[,which(colnames(miRNA) %in% sample )]
lncRNA <- lncRNA[,which(colnames(lncRNA) %in% sample )]
mRNA <- as.data.frame(t(mRNA))
miRNA <- as.data.frame(t(miRNA))
lncRNA <- as.data.frame(t(lncRNA))
mRNA <- mRNA[order(rownames(mRNA)),]
miRNA <- miRNA[order(rownames(miRNA)),]
lncRNA <- lncRNA[order(rownames(lncRNA)),]
第三步
寻找任一(miRNA)与任一(mRNA)相关性分析结果(主要关注两个统计学指标:P值和cor值)