R014 变量处理常用函数

2020-08-14 本文已影响0人 caoqiansheng

1.变量转换

is.datatype()：判断变量种类
as.datatype()：转换变量类型
其中，datatype可以为numeric，character，vector，matrix，data.frame，factor，logical等
可以通过methods(is)，methods(as)查看R中的全部is/as函数列表
factor()：将一个向量转化为一个因子

2.变量的重命名

edit()，fix()调用交互式编辑器，单击变量名进行修改
names()函数
如names(object)，则表示获取object的名字
如names(object) <- Value，则表示将变量名修改为Value
renames()，首次使用需要安装plyr包
renames(dataframe,c(oldname="newname",oldname="newname",……))

4.变量的缺失值

is.na() 用于判断对象的元素中是否有缺失值，如返回值为TRUE，则无缺失，返回FALSE，则有缺失值
重编码条件元素为NA，如下图R代码及输出值，其中na.rm=TRUE表示在计算之前移除NA，na.omit()函数表示移除所有含NA值的观测

> x <- seq(1,30,2)
> x
 [1]  1  3  5  7  9 11 13 15 17 19 21 23 25 27 29
> x[x>=20] <- NA
> x
 [1]  1  3  5  7  9 11 13 15 17 19 NA NA NA NA NA
> y <- na.omit(x)
> y
 [1]  1  3  5  7  9 11 13 15 17 19
attr(,"na.action")
[1] 11 12 13 14 15
attr(,"class")
[1] "omit"
> sum(y)
 [1] 100
> sum(x,na.rm = T)
[1] 100

4.向量处理

length(x):x中元素的个数
dim(x):查看变量的维数；重新设置的维数，例如dim(x)=c(3,2)
dimnames(x):重新设置对象的名称
nrow(x):行的个数
ncol(x):列的个数
class(x):得到或设置x的类；class(x)<-c(3,2)
unclass(x):删除x的类
attr(x,which):得到或设置x的属性which
attributes(obj):得到或设置obj的属性列表
fix,edit:对数据框数据进行表格形式的编辑

5.数据选取和操作

which.max(x):返回x中最大元素的指标
which.min(x):返回x中最小元素的指标
rev(x):翻转x中所有的元素
sort(x):升序排列x中的元素；降序排列使用：rev(sort(x))
cut(x,breaks):将x分割成为几段（或因子）；breaks为段数或分割点向量
match(x,y):返回一个和x长度相同且和y中元素相等的向量不等则返回NA
which(x==a):如果比较操作为真（TRUE）,返回向量x的指针
choose(n,k):组合数的计算
na.omit(x):去除缺失值(NA)（去除相关行如果x为矩阵或数据框）
na.fail(x):返回错误信息，如果x包含至少一个NA
unique(x):如果x为向量或数据框，返回唯一值
table(x):返回一个由x不同值个数组成的表格（通常用于整数或因子），即频数表
subset(x,...):根据条件（...选取x中元素，如x$V1<10）;如果x为数据框,选项select使用负号给出保留或去除的变量 subset(x, subset, select, drop = FALSE, ...)
sample(x,size):不放回的随即在向量x中抽取size个元素,选项replace=TRUE允许放回抽取
prop.table(x,margin=):根据margin使用分数表示表格，wumargin时，所有元素和为

6.R数据的创建与索引

6.1. 向量的操作

c(...)，为concatenate的缩写，向量的创建
from:to :产生一个序列，":"有较高的优先级；1:4+1得到"2,3,4,5"
seq() 产生一个向量序列，seq(from = 1, to = 1, by = ((to - from)/(length.out - 1)),length.out = NULL, along.with = NULL, ...)
rep() 重复一个对象，rep(x,times)，x是要重复的对象（例如向量c(1,2,3)）,times为对象中每个元素重复的次数，如times=c(9,7,3)就是将x向量的1重复9次，2重复7次，3重复3次。

6.2. 数组（包含矩阵、向量）创建

matrix(...)：创立矩阵
array(x,dim=...)：产生由x组成的数组
data.frame(...)：创建数据框，变量可能被命名或未被命名
list(...)：创建一个由变量组成的列表，变量可能被命名；
factor(x,levels=) 把向量x编码称为因子
rbind(...)以行的形式组合矩阵，数据框，或其它
cbind(...)以列的方式组合，其他同rbind()

6.3. 数据切割和分离

向量指标
x[n]:第n个元素
x[-n]:除了第n个元素的x
x[1:n]:前n个元素
x[-(1:n)]:第n+1至最后的元素
x[c(1,4,2)]:指定元素
x["name"]:名为"name"的元素
x[x>3]:所有大于3的元素
x[x>3 & x<5]:区间(3,5)的元素
x[x%in%c("a","and","the")]:给定组中的元素
列表指标
x[n]:列表显示元素n
x［n］:列表的第n个元素
x［"name"］:名为"name"的元素
x$name :同上
矩阵指标
x[i,j]:下表为(i,j)的元素
x[i,]:第i行
x[,j]:第j列
x[,c(1,3)]:第1和3列
x["name",]:名为"name"的行
x$name :同上
数据框指标
x［"name"］:列明为"name"的列
x$name :同上

6.4. R数学函数

泛用函数apply：
用法：apply(X, MARGIN, FUN, ...)，X为一数组array，当然包括矩阵， MARGIN为一向量，它指定函数要作用的下标。例如对一个矩阵来说，1代表行，2代表列，而c(1,2)代表行和列。FUN作用于数组array上的函数。此函数可以是自己编写的。当X时一个data.frame时，而不是array时，函数apply就会强制性的通过as.matrix或as.array将其转化为maxtrix或array。
例子## Compute row and column sums for a matrix:
x <- cbind(x1 = 3, x2 = c(4:1, 2:5))
col.sums <- apply(x, 2, sum)
row.sums <- apply(x, 1, sum)
基本符号：
加（+），减（-），乘（*），除（/），幂（^）
三角函数与其他基本数学函数
sin, cos, tan，asin, atan,atan2,log,log10,exp,
其他
max(x):当x为一向量时，返回x中最大的元素。当x为矩阵时，返回矩阵中所有元素的最大值。当要返回矩阵x每行或每列的最大值时，可以使用apply函数（apply(X, MARGIN, FUN, ...)），其中MARGIN表示要作用的方式，1代表行，2代表列，c(1,2)代表行和列；例如apply(data,MARGIN=1,max)
min(x):返回x中最小的元素，同max
rev(x)：翻转x中的所有元素
sort(x)：升序排列x中的元素；降序排列使用rev(sort(x)),要得到排列的小标用order()
choose(n,k)：组合数计算
which()：返回满足条件的下表
sample(x,size)：不放回的随机在向量x中抽取size个元素选项，replace+TRUE允许放回抽样
rank():计算向量的秩
range(x):返回c(min(x),max(x))
sum(x):x中各元素的加和
diff(x):向量x的差分
prod(x):x中元素的连乘积
mean(x):x的均值
median(x):x的中位数
quantile(x,probs=):满足给定概率的样本分位数（默认为0,0.25,0.75,1）
weight.mean(x,w):加权平均，w即为weight,即权值。
var(x):向量x的样本方差；如果x是矩阵或数据框，协方差矩阵将被计算
cor(x):如果x是矩阵或数据框，相关系数矩阵将被计算
sd(x):x的标准差；sd(x)=sqrt(var(x))
var(x,y) or cov(x,y):x和y间的协方差；如果x,y为矩阵或数据框，返回x和y各列的协方差
cor(x,y):x和y的线性相关系数；或者相关矩阵，如果x和y为矩阵或者数据框
round(x,n):x的约数，精确到n位
log(x,base):计算x以base为基的对数，默认基为exp(1)
scale(x):如果x是一个矩阵，则中心化和标准化数据；若只标准化数据，则使用选项center=FALSE，若只中心化使用scale=FALSE(默认center=TRUE, scale=TRUE)
pmin(x,y,...):x,y相比较小者，组成新的向量
pmax(x,y,...):x,y相比较大者，组成新的向量
Re(x):复数的实部
Im(x):复数的虚部
abs(x):绝对值
Arg(x):复数角度(in radians)
Conj(x):共轭复数
fft(x):数组x的快速傅里叶变换
mvfft(x):矩阵x的每一列的傅里叶变换
factorial()：计算n!
cumsum():cumulative sums
cumprod():cumulative products
D(expression(exp(x^2)),"x") ：求导
integrate(function(x) x^2,0,1)：积分
na.rm=FALSE：指定是否移除缺失值(NA)

6.5.R字符操作

str_c(..., sep = "", collapse = NULL):转化为字符后连接向量；seq=为分割界限（一个空格为默认）；选择collapse=可以分割"collapse"结果
str_sub(string, start = 1L, end = -1L) :提取字符向量的子字段；
str_to_lower(x):转化为lowercase
str_to_upper(x):转化为uppercase
x%in%table:table中匹配x元素位置组成的向量,返回值为逻辑值
str_match(string, pattern):pattern匹配字符，并返回对应的字符string
str_extract: 从字符串中提取匹配字符
str_extract(shopping_list, "\d") # 提取数字 #提取匹配模式的第一个字符串
str_extract(shopping_list, "[a-z]+") #提取字母
str_detect(string, pattern) ：检测函数，用于检测字符串中是否存在某种匹配模式
str_detect(val, "^a")：检查字符串向量，是否以a为开头
nchar(x):字符的个数