2020-03-25:R的安装和数据结构

2020-03-25  本文已影响0人  烂笔头2020

R语言的编程环境

参考原文地址:
https://www.jianshu.com/p/2a1a2ca1a916
安装步骤如下:https://blog.csdn.net/m0_37345402/article/details/82839863

R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。简单来说,R是一门统计计算语言,是一套开源的数据分析解决方案。

RStudio是一款R语言的IDE,R自带的环境操作起来可能不是方便,而Rstudio很好地解决了这个问题,而且它还具有调试、可视化等功能,支持纯R脚本、Rmarkdown (脚本文档混排)、Bookdown (脚本文档混排成书)、Shiny (交互式网络应用)等。

安装顺序:①R ②RStudio
一开始把两个都安装在D盘,R安装完成,RStudio也安装完成,不过打开RStudio时会报致命错误,不知道为什么,就算重新卸载再安装还是会打开RStudio报错,然后最后尝试卸载把两个重新安装在C盘,就可以了。

打开页面:


image.png

ps:R是解释型语言,因此可以一次性执行写在脚本文件中的一组命令,这称为批处理/脚本文件方式使用。
脚本文件以R为扩展名,如test.R。在命令台上键入source(“z.R”)来运行该脚本。

对于解释器与编程环境的区别:
看到这个解释觉得挺形象, 就把它放到这里,方便以后想再看的时候方便找到
https://www.cnblogs.com/sword03/archive/2010/06/27/1766147.html

R语言的一些基础笔记

1、变量赋值:=或者 <-
2、c为combine的意思,Combine Values into a Vector or List

基础数据结构

1、向量

#创建向量
a<-c(1,2,3,4,5,6)
b<-c("one","two","three")
c<-c(TRUE,FALSE,TRUE,TRUE,FALSE)
#向量索引
a[2] #第二个元素
a[-2] #删除第二个元素
a[c(2:4)] #取出第二到第四个元素

#输出结果
[1] 2
[1] 1 3 4 5 6
[1] 2 3 4

2、矩阵

#创建矩阵
mymat <- matrix(c(1:10), nrow=2, ncol=5, byrow=TRUE) 
#R语言是默认byrow=False,即数据按列输入,byrow=True则按行输入
#矩阵索引
mymat #输出矩阵
mymat[2,] #取第二行
mymat[,2] #取第二列
mymat[1,5] #第一行第五列的元素

#输出结果
    [,1] [,2] [,3] [,4] [,5]
[1,]    1    2    3    4    5
[2,]    6    7    8    9   10

[1] 6 7 8 9 10
[1] 2 7
[1] 5

#对比一下byrow=False的结果
>mymat01 <-matrix(c(1:10),nrow=2,ncol=5)
>mymat01 

    [,1] [,2] [,3] [,4] [,5]
[1,]    1    3    5    7    9
[2,]    2    4    6    8   10

3、数组

#创建数组
myarr <- array(c(1:12),dim=c(2,3,2))  #2X3X2
dim(myarr) #取矩阵或数组的维度
myarr[1,2,1] #取第一个矩阵的第一行第二列


#输出结果
, , 1
     [,1] [,2] [,3]
[1,]    1    3    5
[2,]    2    4    6

, , 2
     [,1] [,2] [,3]
[1,]    7    9   11
[2,]    8   10   12

[1] 2 3 2
[1] 3

对于维数向量:
数组有一个特征属性叫做维数向量(dim属性),dim参数可省,省略时作为一维数组(但不同于向量),向量只有定义了维数向量(dim属性)后才能被看作是数组。

4、数据框
数据框类似矩阵(属性:行数和列数)

#创建数据框
kids <- c("Wang", "Li")
age <- c("18", "16")
df <- data.frame(kids, age)
#数据框索引
df[1,] #第一行
df[,2] #第二列
df[1:2,1:2]#前两行,前两列
df$kids #根据列名称
#数据框常用函数
str(df) #数据框的结构
rownames(df) #行名称
colnames(df) #列名称

5、因子变量
变量:类别变量,数值变量
类别数据对于分组数据研究非常有用。

因子用来存储类别变量(categorical variables)和有序变量,这类变量不能用来计算而只能用来分类或
者计数。因子表示分类变量,有序因子表示有序变量。
生成因子数据对象的函数是factor(),语法是factor(data, levels, labels, ...),其中data是数据,levels是因子水平向量,labels是因子的标签向量。

#向量因子化
status<-c("Poor", "Improved", "Improved","Excellent", "Poor")
status<-rep(status,15) #rep(),复制函数,复制status数据15次
status<-factor(status,ordered=TRUE, levels= c("Poor","Improved", "Excellent"),labels=c("P","I","E"))
#创建有序因子,因子水平向量:Poor<Improved<Excellent
index <- sample(1:100,75)  #sample()随机抽样函数
plotdata <- data.frame(index,status)
attach(plotdata)
boxplot(index~status,col="red")  #boxplot函数绘制箱线图
箱线图

小知识点:
sample函数可以完成随机抽样处理,其基本形式为:
sample(x, size, replace = FALSE)
具体参数说明:
x 整体数据,以向量形式给出
size 抽取样本的数目
replace 如果为F(默认),则是不重复抽样,此时size不能大于x的长度;如果为T,则是重复抽样,此时size允许大于x的长度

6、列表
列表以一种简单的方式组织和调用不相干的信息,R函数的许多运行结果都是以列表的形式返回。

#创建列表
lis <- list(name='fred',wife='mary',no.children=3,child.ages=c(4,7,9))
#列表索引
lis$name #列表组件名
lis[[1]] #列表位置访问
输出结果

下面是我整理的R的控制流的笔记记录:
https://www.jianshu.com/p/960e99e90154

上一篇下一篇

猜你喜欢

热点阅读