学习小组Day5笔记—我爱一朵向阳花

2020-04-14 本文已影响0人我爱一朵向阳花

R-数据结构

数据类型包括：

R-数据类型

其中，最需要掌握的是向量和数据框（即表格）。

向量

1、向量写法（赋值给变量）

#常用向量写法
> x <- c(1,2,3)    #向量，1,2,3有序排列
#其它向量写法
> a <- 1:10         #将a赋值为1-10之间所有整数
> b <- rep(1:3,times=4)   #将b赋值为1-3，重复4次
> c <- seq(1,10,by=0.5)  #数列，1-10之间，间隔0.5取一次

2、从向量中提取元素

根据元素位置提取

R中第几就是第几，不是从0开始数。

> a
 [1]  1  2  3  4  5  6  7  8  9 10
> a[4]     #提取向量a中第4个元素
[1] 4
> a[-4]   #提取向量a中除第4个元素以外的元素
[1]  1  2  3  5  6  7  8  9 10
> a[2:4]   #提取向量a中第2个到第4个元素
[1] 2 3 4
> a[-(2:4)]   #提取向量a中除第2个到第4个元素以外的元素
[1]  1  5  6  7  8  9 10
> a[c(1:5)]    #提取向量a中第1个到第5个元素，乱敲的
[1] 1 2 3 4 5
> a[c(2,7)]  #提取向量a中第2个和第7个元素
[1] 2 7

根据值提取

“等于”为“==”

> a
 [1]  1  2  3  4  5  6  7  8  9 10
> a[a==10]  #提取向量a中等于10的元素
[1] 10
> a[a==0]   #提取向量a中等于0的元素，向量a中并没有
integer(0)
> a[a>5]    #提取向量a中大于5的元素
[1]  6  7  8  9 10
> a[a %in% c(1,0.5,3)]   #提取向量a中存在于向量c(1,0.5,3)中的元素，相当于向量a与向量c(1,0.5,3)的交集
[1] 1 3

数据框

读取数据框

> x <- read.csv('doudou.txt')  #文件名用引号，单引号双引号均可
> z <- read.table(file='huahua.txt',sep='\t',header = T)
#单引号双引号均可
#sep：指定分隔符
#header=T，将表格中第一行作为表头

注意该文件必须在工作目录中，即与当前R Project在同一文件夹中。

设置行名和列名

> A <- read.csv("doudou.txt")
#查看列名
> colnames(A)   
[1] "X1" "X2"
#查看行名，行名默认为行号
> rownames(A)
[1] "1" "2" "3" "4" "5"

修改列名

> colnames(A)[1]<-"bioplanet"   #修改第一列列名

引自生信星球：有的公司返回数据，左上角第一格为空，R会自动补为x,用这个命令来修改。

修改前

修改后

修改行名

> z <- read.table(file='huahua.txt',sep="\t",header = T,row.names = 1)
#row.names：将第一列设置为行名

修改前

修改后

数据框导出

> write.table(A,file = "1.txt",sep = ",")  #将分隔符改为逗号

导出的文件如下，字符串带有双引号。

导出文件
用quote=F去掉双引号

> write.table(A,file = "1.txt",sep = ",",quote=F)

字符串不加双引号

变量的保存与重新加载（下次使用）

保存格式：RData

#保存当前所有变量
> save.image(file="bioinfoplanet.RData")
#保存其中一个变量
> save(A,file="A.RData")
#重新加载
> load('bioinfoplanet.RData')

保存的RData会出现在工作目录中。

保存的RData

提取数据框中的元素

以变量A为例

变量A

- 变量名[x,y]   #提取变量中的第x行第y列
> A[1,2]   #注意bioplant和X2是表头，第一行是A和1
[1] 1
> A[2,2]
[1] NA
- 变量名[x,]   #提取变量中的第x行
> A[1,]
  bioplanet X2
A         A  1
> A[3,]
  bioplanet X2
3         C NA
- 变量名[,y]    #提取变量中的第y列
> A[,2]
[1]  1 NA NA  3 NA
- 变量名[y]   #同上，第y列
> A[2]
  X2
A  1
2 NA
3 NA
4  3
5 NA
- 变量名[a:b]  #提取变量中的第a列到第b列
> A[1:2]
  bioplanet X2
A         A  1
2         B NA
3         C NA
4         D  3
5         E NA
- 变量名[c(a,b)]    #提取变量中的第a列和第b列
> A[c(1,2)]
  bioplanet X2
A         A  1
2         B NA
3         C NA
4         D  3
5         E NA
- 变量名$列名  #提取某一列（不用括号，支持Tab键自动补全）
> A$bioplanet
[1] A B C D E
Levels: A B C D E
> A$X2
[1]  1 NA NA  3 NA

直接使用数据框中的变量

新建数据框

data.frame()

#case、values为列名  
#runif(n,min=0,max=1)，runif()函数用于生成从0到1区间范围内的服从正态分布的随机数
> a <-data.frame(case=paste("S",1:50),values=runif(50))

新建的数据框

#提取数据框中的列做散点图
> plot(a$case,a$values)

散点图
关于x轴的疑惑：为什么没有按照表格中的值进行排序？
来自花花的解答：默认按照ASCII码排序，不是按照数值
按照花花的方法进行了调整：

引用花花的教程：要把x轴对应的那一列变成因子，按照你想要的顺序排序

> a <-data.frame(case=paste0("S",1:50),values=runif(50))
> a$case <- factor(a$case,levels = paste0("S",1:50),ordered = TRUE)
> plot(a$case,a$values)

注意paste()和paste0()的区别在于：paste() S和数字之间有空格(sep=" ")，paste0()没有空格，S与数字是紧挨着的。
调整后的散点图：

X轴按照值的大小排列

更简单的方法

1、将数据框的变量名添加到搜索环境中

> attach(a)
> plot(case,values)

作图完成后，将a从搜索环境中除去detach(a)

2、with
with(data, expr, …)函数用于在一个从data构建出的环境中运行R表达式。参考链接1 参考链接2

> with(a,{plot(case,values)
+ x<<-summary(values)})

> x
   Min. 1st Qu.  Median    Mean 3rd Qu. 
0.01185 0.26415 0.46720 0.47157 0.64463 
   Max. 
0.95175

<<- :作为全局变量
如果写x<-summary(values)，则出了大括号就失效。

脚本（即RStudio左上角框）的使用和保存

脚本文件的后缀:R

R脚本

使用：在文件夹中找到，用RStudio打开。

作业题回答：
原因是没有建立这个变量/没有赋值（变量不存在），解决方法如下：

给变量X赋值