2019-07-26
1.## 加载R包
## 下载数据,如果文件夹中有会直接读入
gset = getGEO('GSE32575', destdir=".",getGPL = F)
# 获取ExpressionSet对象,包括的表达矩阵和分组信息
gset=gset[[1]]
2.#通过pData函数获取分组信息
## 获取分组信息,点开查阅信息
pdata=pData(gset)
## 只要后36个,本次选择的这36个是配对的。
## 所以,别人的芯片我们也不是全要,我们只要适合自己的数据
group_list=c(rep('before',18),rep('after',18))
group_list=factor(group_list)
## 强制限定顺序
group_list <- relevel(group_list, ref="before")
3.#通过exprs函数获取表达矩阵并校正
exprSet=exprs(gset)
可以先简单看一下整体样本的表达情况,
其中exprSet[,-c(1:12)]的意思是去掉这个数据的前12个,因为我们需要的后面36个.
boxplot(exprSet[,-c(1:12)],outline=FALSE, notch=T,col=group_list, las=2)
需要人工校正一下,用的方法类似于Quntile Normalization
这里我们用limma包内置的一个函数
library(limma)
exprSet=normalizeBetweenArrays(exprSet)
boxplot(exprSet,outline=FALSE, notch=T,col=group_list, las=2)
4.#判断是否需要进行数据转换
我们通过分组信息已经知道,前12个样本本次不需要,所以先去掉
exprSet = as.data.frame(exprSet)[,-seq(1,12)]
肉眼看到数字很大,这时候需要log转换(选log2)。
此外还有一个脚本可以自动判断是否需要log转换,这个脚本来自于GEO2R,我改写了一点点。
ex <- exprSet
qx <- as.numeric(quantile(ex, c(0., 0.25, 0.5, 0.75, 0.99, 1.0), na.rm=T))
LogC <- (qx[5] > 100) ||
(qx[6]-qx[1] > 50 && qx[2] > 0) ||
(qx[2] > 0 && qx[2] < 1 && qx[4] > 1 && qx[4] < 2)
if (LogC) { ex[which(ex <= 0)] <- NaN
exprSet <- log2(ex)
print("log2 transform finished")}else{print("log2 transform not needed")}
这个语句会自动判断,如果已经log话就跳过,并提示
"log2 transform not needed"
如果没有log话,他自动log2,并且提示:
"log2 transform finished"
但是我们发现一个问题,这个表达数据行名是探针,
不是我们熟悉的基因名称如果TP53,BRCA1这样的,所以我们需要注释他。
5.#获取注释信息
通常情况下我们使用R包来注释,R包和平台的注释信息对应关系我整理了一个表格 platformMap,
是一个文本文件,在文末有获取方法。
platformMap <- data.table::fread("platformMap.txt")
我们根据上述帖子里面提到的platformMap,找到对应的R包是:
"illuminaHumanv2.db"
index = gset@annotation
index = gset@annotation
platformDB = paste0(platformMap$bioc_package[grep(index,platformMap$gpl)],".db")
安装R包并加载
# 第一句是为了增加镜像
if(length(getOption("BioC_mirror"))==0) options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
## 没有这个包就给你装,有就不装
if(!require("illuminaHumanv2.db")) BiocManager::install("illuminaHumanv2.db",update = F,ask = F)
## 加载R包
library(illuminaHumanv2.db)
获取探针对应的symbol信息
## 获取表达矩阵的行名,就是探针名称
probeset <- rownames(exprSet)
## 使用lookup函数,找到探针在illuminaHumanv2.db中的对应基因名称
## 如果分析别的芯片数据,把illuminaHumanv2.db更换即可
SYMBOL <- annotate::lookUp(probeset,"illuminaHumanv2.db", "SYMBOL")
## 转换为向量
symbol = as.vector(unlist(SYMBOL))
制作probe2symbol转换文件
probe2symbol = data.frame(probeset,symbol,stringsAsFactors = F)
6.探针转换与基因去重
一个基因会对应对个探针,有些基因名称会是重复的,这些都需要处理。
对于,多个探针,我们选取在样本中平均表达量最高的探针作为对应基因的表达量。
一下代码完成所有事情,而且可以复用。
library(dplyr)
library(tibble)
exprSet <- exprSet %>%
rownames_to_column(var="probeset") %>%
#合并探针的信息
inner_join(probe2symbol_df,by="probeset") %>%
#去掉多余信息
select(-probeset) %>%
#重新排列
select(symbol,everything()) %>%
#求出平均数(这边的点号代表上一步产出的数据)
mutate(rowMean =rowMeans(.[grep("GSM", names(.))])) %>%
#去除symbol中的NA
filter(symbol != "NA") %>%
#把表达量的平均值按从大到小排序
arrange(desc(rowMean)) %>%
# symbol留下第一个
distinct(symbol,.keep_all = T) %>%
#反向选择去除rowMean这一列
select(-rowMean) %>%
# 列名变成行名
column_to_rownames(var = "symbol")
7.差异分析
差异分析的矩阵构建有两种方式
我们选取格式比较简单的。如果没有配对信息,差异分析这样做:
design=model.matrix(~ group_list)
fit=lmFit(exprSet,design)
fit=eBayes(fit)
allDiff=topTable(fit,adjust='fdr',coef="group_listafter",number=Inf,p.value=0.05)
其中allDiff得到6799行。
因为我们这里实际上是有配对信息的,差异分析应该这样做:
pairinfo = factor(rep(1:18,2))
design=model.matrix(~ pairinfo+group_list)
fit=lmFit(exprSet,design)
fit=eBayes(fit)
allDiff_pair=topTable(fit,adjust='BH',coef="group_listafter",number=Inf,p.value=0.05)
得到的差异分析结果allDiff_pair有7650个,比直接做差异分析要多接近1000个。
8.作图验证(非必要)
差异分析的结果,配对和非配对理解起来比较抽象,我们用图片直观地感受一下。
首先我们需要得到ggplot2喜欢的数据格式,行是观测,列是变量,这也叫clean data,tide data, 清洁数据。
首先基因名称需要在列,所以需要用t函数,行列转置。
data_plot = as.data.frame(t(exprSet))
data_plot = data.frame(pairinfo=rep(1:18,2),
group=group_list,
data_plot,stringsAsFactors = F)
作图展示:
挑选了一个基因CAMKK2
library(ggplot2)
ggplot(data_plot, aes(group,CAMKK2,fill=group)) +
geom_jitter(aes(colour=group), size=2, alpha=0.5)+
xlab("") +
ylab(paste("Expression of ","CAMKK2"))+
theme_classic()+
theme(legend.position = "none")
看起来杂乱一片,根本得不到有用信息,我们加入他的配对信息,再来作图:
library(ggplot2)
ggplot(data_plot, aes(group,CAMKK2,fill=group)) +
geom_boxplot() +
geom_point(size=2, alpha=0.5) +
geom_line(aes(group=pairinfo), colour="black", linetype="11") +
xlab("") +
ylab(paste("Expression of ","CAMKK2"))+
theme_classic()+
theme(legend.position = "none")
再来看看真正有差异的基因吧,比如:
library(ggplot2)
ggplot(data_plot, aes(group,CH25H,fill=group)) +
geom_boxplot() +
geom_point(size=2, alpha=0.5) +
geom_line(aes(group=pairinfo), colour="black", linetype="11") +
xlab("") +
ylab(paste("Expression of ","CH25H"))+
theme_classic()+
theme(legend.position = "none")
我们还可以批量地作图,这段不必要,可以自己一张张画,我只是展示一下如何批量画出差异最大的8个基因:
library(dplyr)
library(tibble)
allDiff_arrange <- allDiff_pair %>%
rownames_to_column(var="genesymbol") %>%
arrange(desc(abs(logFC)))
genes <- allDiff_arrange$genesymbol[1:8]
plotlist <- lapply(genes, function(x){
data =data.frame(data_plot[,c("pairinfo","group")],gene=data_plot[,x])
ggplot(data, aes(group,gene,fill=group)) +
geom_boxplot() +
geom_point(size=2, alpha=0.5) +
geom_line(aes(group=pairinfo), colour="black", linetype="11") +
xlab("") +
ylab(paste("Expression of ",x))+
theme_classic()+
theme(legend.position = "none")
})
library(cowplot)
plot_grid(plotlist=plotlist, ncol=4,labels = LETTERS[1:8])
#9.后续分析
差异分析后还有很多操作,
画一张热图
library(pheatmap)
## 设定差异基因阈值,减少差异基因用于提取表达矩阵
allDiff_pair=topTable(fit,adjust='BH',coef="group_listafter",number=Inf,p.value=0.05,lfc =0.5)
##提前部分数据用作热图绘制
heatdata <- exprSet[rownames(allDiff_pair),]
##制作一个分组信息用于注释
annotation_col <- data.frame(group_list)
rownames(annotation_col) <- colnames(heatdata)
#如果注释出界,可以通过调整格子比例和字体修正
pheatmap(heatdata, #热图的数据
cluster_rows = TRUE,#行聚类
cluster_cols = TRUE,#列聚类,可以看出样本之间的区分度
annotation_col =annotation_col, #标注样本分类
annotation_legend=TRUE, # 显示注释
show_rownames = F,# 显示行名
show_colnames = F,# 显示列名
scale = "row", #以行来标准化,这个功能很不错
color =colorRampPalette(c("blue", "white","red"))(100))
我们还可以画一个火山图
library(ggplot2)
library(ggrepel)
library(dplyr)
libr
data <- topTable(fit,adjust='BH',coef="group_listafter",number=Inf)
data$significant <- as.factor(data$adj.P.Val<0.05 & abs(data$logFC) > 0.5)
data$gene <- rownames(data)
ggplot(data=data, aes(x=logFC, y =-log10(adj.P.Val),color=significant)) +
geom_point(alpha=0.8, size=1.2,col="black")+
geom_point(data=subset(data, logFC > 0.5),alpha=0.8, size=1.2,col="red")+
geom_point(data=subset(data, logFC < -0.5),alpha=0.6, size=1.2,col="blue")+
labs(x="log2 (fold change)",y="-log10 (adj.P.Val)")+
theme(plot.title = element_text(hjust = 0.4))+
geom_hline(yintercept = -log10(0.05),lty=4,lwd=0.6,alpha=0.8)+
geom_vline(xintercept = c(0.5,-0.5),lty=4,lwd=0.6,alpha=0.8)+
theme_bw()+
theme(panel.border = element_blank(),
panel.grid.major = element_blank(),
panel.grid.minor = element_blank(),
axis.line = element_line(colour = "black")) +
geom_point(data=subset(data, abs(logFC) > 1),alpha=0.8, size=3,col="green")+
geom_text_repel(data=subset(data, abs(logFC) > 1),
aes(label=gene),col="black",alpha = 0.8)
d = data.frame(obs = c(1, 2, 3), treat = c("A", "B", "A" ),
weight = c(2.3, NA, 9))
d
# 保存为简单的文本文件
write.table(d,file="SDDDD.txt")
write.table(d,file="SDDDD.txt",row.names=F,quote = F)
# row.names = F指定行名不写入文件,quote = F表示变量名不放入双引号中
# 保存为逗号分割的文本文件
write.csv(d,file = "SDD.csv")
# 保存为R格式文件(直接用save)
save(d,file="SDDDD.RData")
# 在经过一段时间的分析后,常需要将工作空间的映像保存,命令为:
save.image()
# 它等价于 save(list = ls(all=TRUE), file = ".RData")
数据的读取
可以使用read.table()、scan()、readfwf()函数读入存储在文本文件中的数据
A=read.table("SDDDD.txt",header=TRUE) # header = TRUE 表明读入的第一行是变量名
A
# read.table有四个变形
# read.csv(), read.csv2(), read.delim(), read.delim2()
# 使用函数scan(),它比read.table()更加灵活,唯一的区别是scan()可以指定变量的类型
mydata=scan("SDD.csv",what=list(obs=0,treat="",weight=0),sep=",",skip = 1)
mydata
另一个重要区别是scan()函数可以创建不同的对象,在缺省情况下(what被省略),将创建一个数值型向量。
# 使用函数read.fwf(),它可以用来读取文件中一些固定宽度格式的数据。
mydata = read.fwf("SDDDD.txt", widths=c(1,4,3), col.names=c("X", "Y", "Z"))
widths=c(1,4,3)
install.packages("‘BiocManager",repos="s https://github.com/Bioconductor/BiocManager/issues")
library(RODBC)
z = odbcConnectExcel("LYC.xls")
attach(mtcars)
attach(mtcars)
mtcars2 = data.frame(mtcars[, c(1,4)])
head(mtcars2)
load("SDDDD.RData")
demo("graphics")
demo(persp)
dim(Puromycin)
head(Puromycin)
# 对于状态treated,画出rate关于cone的散点图
PuroA = subset(Puromycin, state == "treated")
plot(rate ~ conc, data = PuroA)
有三种方法指明函数plot()使用的数据集
#plot()函数中使用data选项
PuroA = subset(Puromycin, state == "treated")
plot(rate ~ conc, data = PuroA)
#在with()中使用plot()
with(PuroA, plot(conc, rate))
#使用$直接指向数据与变量
plot(PuroA$rate, PuroA$conc)
# R提供25种不同的符号和8种不同颜色,浏览它们的命令是
u = 1:25
plot(u ~ 1, pch = u, col = u, cex = 3)
bg # 背景色
fg # 前景色
col # 颜色
col.axis #坐标轴颜色
col.lab #标签颜色
col.main #题目颜色
col.sub #副题目颜色
和字体相关的参数有下面几个:
字体形态
family #全局字体,特指字体的类型,如宋体还是楷体
font #字体,特指字体的形态,如斜体还是粗体
font.axis #坐标轴字体
font.lab #标签字体
font.main #题目字体
font.sub #副题目字体
par(font.axis=1) # 1 普通文本
par(font.lab=2) # 2 粗体
par(font.main=3) # 3 斜体
par(font.sub=4) # 4 粗斜体
字体大小
PS=10 指所有字体
cex指部分
cex.axis #坐标轴
cex.lab #标签
cex.main #题目
cex.sun #副题目
线条
lty #line style
线条的类型:1、2、3、4、5、6 线条的大小可以用lwd调节
pch
线条符号种类:0-24 包括正方形、三角、圆形等24种. 符号的大小可以用cex调节(图形有多大)。
# R提供25种不同的符号和8种不同颜色,浏览它们的命令是
u = 1:25
plot(u ~ 1, pch = u, col = u, cex = 1)
# 选择合适的符号及其大小与颜色
plot(rate ~ conc, data = PuroA, pch = 2, col = 4, cex = 2.5) 选第二种图形,第四种颜色,图形大小为2.5
# 坐标轴与标题设定
plot(rate ~ conc, data = PuroA, pch = 2, col = 4,
cex = 2.5, xlim = c(0, 1.2), ylim = c(40, 210), #xlim 横轴1~1.2 #ylim 纵轴区间40~210
ylab = "Concentration", #xlab 横轴标签 cex.lab 标签字体大小
xlab = "Rate", cex.lab = 3)
title(main = "Puromycin", cex.main = 3)
# 连接数据点
library(doBy)
PuroA.mean = summaryBy(rate ~ conc, data = PuroA, FUN = mean)
PuroA.mean
conc rate.mean
1 0.02 61.5
2 0.06 102.0
3 0.11 131.0
4 0.22 155.5
5 0.56 196.0
6 1.10 203.5
plot(rate ~ conc, data = PuroA, pch = 16, col = 4, cex = 1.5) #散点图
points(rate.mean ~ conc, data = PuroA.mean, col = "cyan", lwd = 10, pch = "x") #cyan蓝绿色
lines(rate.mean ~ conc, data = PuroA.mean, col = "blue") #添加趋势线
# 下面命令给出两条光滑曲线
plot(rate ~ conc, data = PuroA)
smooth1 = with(PuroA, lowess(rate ~ conc, f = 0.9)) #f表示曲线的光滑程度 越大转折点越少
smooth2 = with(PuroA, lowess(rate ~ conc, f = 0.3))
lines(smooth1, col = "black")
lines(smooth2, col = "blue")
# 添加多项式拟合线。下面命令给出一次、二次和三次多项式拟合
plot(rate ~ conc, data = PuroA)
m1 = lm(rate ~ conc, data = PuroA)
m2 = lm(rate ~ conc + I(conc^2), data = PuroA)
m3 = lm(rate ~ conc + I(conc^2) + I(conc^3), data = PuroA)
lines(fitted(m1) ~ conc, data = PuroA, col = "red");lines(fitted(m2) ~ conc, data = PuroA, col = "blue");lines(fitted(m3) ~ conc, data = PuroA, col = "cyan
# 表达式由对象和函数组成。我们可以用;对同一行不同的表达式进行分隔
"this expression will be printed";7+13;exp(0+1i*pi)
x <- c(1,2,3,4,5)
x
class(x)
typeof(x)
x[2]="hat"
x
typeof(x)
class(x)
if (x > 1) "orange" else "apple"
typeof(quote(if (x > 1) "orange" else "apple"))
sessionInfo()
sqrt(-1)
`%myop%` <- function(a, b){2*a + 2*b}
1 %myop% 1
x <- 1; y <- 2; z <- 3
function(3)
x=function(3)
x={3,function(),1}
str(x)
a <- rep("a", times=5)
b <- rep("b", times=5)
ifelse(c(TRUE, TRUE, TRUE, FALSE, TRUE), a, b)
example(glm)
help(glm)
?? regression
vignette("affy")
vignette(all=FALSE),axis(2,tick = FALSE))
rug("deoxy time")
rug("appotosisi",side=3)
title(main="流式结果",cex.main=2)
lines(c(0:5),col="black",lwd=3,lty=3)
plot(c(0:5), col = "red")
text(4,5, labels = 'dian', font =2)
grid(nx=NA, ny=4, lwd=2, col='skyblue')
par(mfrow=c(3,3),mar=c(2,2,2,2))
dose <- c(20, 30, 40, 45, 60)
drugA <- c(16, 20, 27, 40, 60)
drugB <- c(15, 18, 25, 31, 40)
plot(dose,drugA,type = "b")
opar<-par(no.readonly=TRUE)
par(mfrow=c(2,2))
plot(dose,drugA,type = "b")
par(lty = 2, pch = 17)
plot(dose, drugA, type = "b")
par(opar)
plot(dose,drugA,type="b",main = "第三幅")
a=1:10
dim(a)=c(2,5)
a[2,3]
b=as.data.frame(a)
pheatmap::pheatmap(b)
install.packages("pheatmap")
BiocManager::install("GEOquery")
installed.packages("pheatmap")
a=1:10
dim(a)=c(2,5)
pheatmap::pheatmap(a)
name<-c("Zhangshan","Lisi","Wangwu","Zhaoliu")
> age<-c(20,30,40,50)
name<-c("Zhangshan","Lisi","Wangwu","Zhaoliu")
age<-c(20,30,40,50)
onedata.frame<-data.frame(name,age)
onedata.frame
attach(onedata.frame)
最后介绍一下hist函数的返回值
quantile(mpg)
Summary(mpg)
plot(hp, mpg,pch=cyl)
barplot(table(cyl))
hist(cyl)
legend(250, 30,pch=c(4,6,8))
legend=c("4 cylinders", "6cylinders", "8 cylinders"))
text.legend=c("上周pv","本周pv","pv同比增长","pv环比增长")
col2<-c("black","blue")
legend("topleft",pch=c(15,15,16,16),legend=text.legend,col=c(col,col2),bty="n",horiz=TRUE)
tu=par(no.readonly=TRUE)
runif(10,2,3)##生成10个2到3之间的随机数 前面的r表示随机,unif表示服从均匀分布,
类似的还有rnorm(),它的功能类似,只是它生成的是服从正态分布的随机数,其中norm就是正态分布的意思。
# set.seed(1000)
runif(10,2,3) 前面用set.seed(1000)限定,可以保证每次取的2到3之间的10个数都相同。
#w<-c(75.0,64.0,47.4,66.9,62.2,62.2,58.7,63.5,66.6,64.0,57.0,69.0,56.9,50.0,72.0)
# quantile(w,probs=seq(0,1,0.1),na.rm=FALSE)
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
47.40 52.76 56.98 59.40 62.20 63.50 64.00 66.08 67.32 70.80 75.00