生信星球培训第五十二期

学习小组Day5笔记—我爱一朵向阳花

2020-04-14  本文已影响0人  我爱一朵向阳花

R-数据结构

数据类型包括:


R-数据类型

其中,最需要掌握的是向量和数据框(即表格)

向量

1、向量写法(赋值给变量)

#常用向量写法
> x <- c(1,2,3)    #向量,1,2,3有序排列
#其它向量写法
> a <- 1:10         #将a赋值为1-10之间所有整数
> b <- rep(1:3,times=4)   #将b赋值为1-3,重复4次
> c <- seq(1,10,by=0.5)  #数列,1-10之间,间隔0.5取一次

2、从向量中提取元素

根据元素位置提取

R中第几就是第几,不是从0开始数。

> a
 [1]  1  2  3  4  5  6  7  8  9 10
> a[4]     #提取向量a中第4个元素
[1] 4
> a[-4]   #提取向量a中除第4个元素以外的元素
[1]  1  2  3  5  6  7  8  9 10
> a[2:4]   #提取向量a中第2个到第4个元素
[1] 2 3 4
> a[-(2:4)]   #提取向量a中除第2个到第4个元素以外的元素
[1]  1  5  6  7  8  9 10
> a[c(1:5)]    #提取向量a中第1个到第5个元素,乱敲的
[1] 1 2 3 4 5
> a[c(2,7)]  #提取向量a中第2个和第7个元素
[1] 2 7
根据值提取

“等于”为“==”

> a
 [1]  1  2  3  4  5  6  7  8  9 10
> a[a==10]  #提取向量a中等于10的元素
[1] 10
> a[a==0]   #提取向量a中等于0的元素,向量a中并没有
integer(0)
> a[a>5]    #提取向量a中大于5的元素
[1]  6  7  8  9 10
> a[a %in% c(1,0.5,3)]   #提取向量a中存在于向量c(1,0.5,3)中的元素,相当于向量a与向量c(1,0.5,3)的交集
[1] 1 3

数据框

读取数据框

> x <- read.csv('doudou.txt')  #文件名用引号,单引号双引号均可
> z <- read.table(file='huahua.txt',sep='\t',header = T)
#单引号双引号均可
#sep:指定分隔符
#header=T,将表格中第一行作为表头

注意该文件必须在工作目录中,即与当前R Project在同一文件夹中。

设置行名和列名

> A <- read.csv("doudou.txt")
#查看列名
> colnames(A)   
[1] "X1" "X2"
#查看行名,行名默认为行号
> rownames(A)
[1] "1" "2" "3" "4" "5"

修改列名

> colnames(A)[1]<-"bioplanet"   #修改第一列列名

引自生信星球:有的公司返回数据,左上角第一格为空,R会自动补为x,用这个命令来修改。

修改前
修改后

修改行名

> z <- read.table(file='huahua.txt',sep="\t",header = T,row.names = 1)
#row.names:将第一列设置为行名
修改前 修改后

数据框导出

> write.table(A,file = "1.txt",sep = ",")  #将分隔符改为逗号

导出的文件如下,字符串带有双引号。

导出文件
quote=F去掉双引号
> write.table(A,file = "1.txt",sep = ",",quote=F)
字符串不加双引号

变量的保存与重新加载(下次使用)

保存格式:RData

#保存当前所有变量
> save.image(file="bioinfoplanet.RData")
#保存其中一个变量
> save(A,file="A.RData")
#重新加载
> load('bioinfoplanet.RData')

保存的RData会出现在工作目录中。


保存的RData

提取数据框中的元素

以变量A为例


变量A
- 变量名[x,y]   #提取变量中的第x行第y列
> A[1,2]   #注意bioplant和X2是表头,第一行是A和1
[1] 1
> A[2,2]
[1] NA
- 变量名[x,]   #提取变量中的第x行
> A[1,]
  bioplanet X2
A         A  1
> A[3,]
  bioplanet X2
3         C NA
- 变量名[,y]    #提取变量中的第y列
> A[,2]
[1]  1 NA NA  3 NA
- 变量名[y]   #同上,第y列
> A[2]
  X2
A  1
2 NA
3 NA
4  3
5 NA
- 变量名[a:b]  #提取变量中的第a列到第b列
> A[1:2]
  bioplanet X2
A         A  1
2         B NA
3         C NA
4         D  3
5         E NA
- 变量名[c(a,b)]    #提取变量中的第a列和第b列
> A[c(1,2)]
  bioplanet X2
A         A  1
2         B NA
3         C NA
4         D  3
5         E NA
- 变量名$列名  #提取某一列(不用括号,支持Tab键自动补全)
> A$bioplanet
[1] A B C D E
Levels: A B C D E
> A$X2
[1]  1 NA NA  3 NA

直接使用数据框中的变量

新建数据框

data.frame()

#case、values为列名  
#runif(n,min=0,max=1),runif()函数用于生成从0到1区间范围内的服从正态分布的随机数
> a <-data.frame(case=paste("S",1:50),values=runif(50))
新建的数据框
#提取数据框中的列做散点图
> plot(a$case,a$values)
散点图
关于x轴的疑惑:为什么没有按照表格中的值进行排序?
来自花花的解答:默认按照ASCII码排序,不是按照数值
按照花花的方法进行了调整:

引用花花的教程:要把x轴对应的那一列变成因子,按照你想要的顺序排序

> a <-data.frame(case=paste0("S",1:50),values=runif(50))
> a$case <- factor(a$case,levels = paste0("S",1:50),ordered = TRUE)
> plot(a$case,a$values)

注意paste()和paste0()的区别在于:paste() S和数字之间有空格(sep=" "),paste0()没有空格,S与数字是紧挨着的。
调整后的散点图:

X轴按照值的大小排列
更简单的方法

1、将数据框的变量名添加到搜索环境中

> attach(a)
> plot(case,values)

作图完成后,将a从搜索环境中除去detach(a)

2、with
with(data, expr, …)函数用于在一个从data构建出的环境中运行R表达式。参考链接1 参考链接2

> with(a,{plot(case,values)
+ x<<-summary(values)})

> x
   Min. 1st Qu.  Median    Mean 3rd Qu. 
0.01185 0.26415 0.46720 0.47157 0.64463 
   Max. 
0.95175 

<<- :作为全局变量
如果写x<-summary(values),则出了大括号就失效。

脚本(即RStudio左上角框)的使用和保存

脚本文件的后缀:R


R脚本

使用:在文件夹中找到,用RStudio打开。

作业题回答:
原因是没有建立这个变量/没有赋值(变量不存在),解决方法如下:


给变量X赋值
上一篇下一篇

猜你喜欢

热点阅读