基础知识

R语言——字符串处理

2020-03-20  本文已影响0人  养猪场小老板

取字符数量的函数
length与nchar不同,length是取向量的长度

# nchar表示字符串中的字符的个数
nchar("abcd")
[1] 4
length("abcd")
[1] 1
length(c("hello", "world"))
[1] 2

字符替换

chartr(old="a", new="c", x="a123")
[1] "c123"

chartr(old="a", new="A", x="data")
[1] "dAtA"

字符串粘合函数
paste在不指定分割符的情况下,默认分割符是空格
paste0在不指定分割符的情况下,默认分割符是空

# 默认以空格隔开
paste("Hello","world")
[1] "Hello world"

# 没有空格
paste0("Hello","world")
[1] "Helloworld"

# 指定分割符
paste("abc", "efg", "hijk", sep = "-")
[1] "abc-efg-hijk"

# 分别对向量的每一个元素进行连接
paste0("A", 1:6, sep = "")
[1] "A1" "A2" "A3" "A4" "A5" "A6"

# collapse参数:每一个元素操作之后,再把向量的每一个元素进行连接
paste0("A", 1:6, sep = "",collapse = "-")
[1] "A1-A2-A3-A4-A5-A6"

字符串截取函数

substr(x = "hello", start = 1, stop = 2)
[1] "he"
字符串的分割函数,可以指定分割符,生成一个list

strsplit("abc", split = "")
[[1]]
[1] "a" "b" "c"
如果要对一个向量使用该函数,需要注意。
unlist(lapply(X = c("abc", "bcd", "dfafadf"), FUN = function(x) {return(strsplit(x, split = "")[[1]][1])}))
[1] "a" "b" "d"

字符串替换
gsub替换匹配到的全部
sub 替换匹配到的第一个

# 将b替换为B
gsub(pattern = "b", replacement = "B", x = "baby")
[1] "BaBy"

gsub(pattern = "b", replacement = "B", x = c("abcb", "boy", "baby"))
[1] "aBcB" "Boy"  "BaBy"
sub(pattern = "b", replacement = "B", x = "baby")
[1] "Baby"

sub(pattern = "b", replacement = "B", x = c("abcb", "baby"))
[1] "aBcb" "Baby"

字符串匹配
grep函数返回的是索引值
grepl函数返回的是逻辑值

# 返回匹配到的元素的索引
grep(pattern = "boy", x = c("abcb", "boy", "baby"))
[1] 2

# 返回逻辑值
grepl(pattern = "boy", x = c("abcb", "boy", "baby"))
[1] FALSE  TRUE FALSE

match:匹配两个向量,返回x中存在的返回索引或TRUE、FALSE
match函数使用格式有如下两种:

参数详解

第一种方便设置参数,返回x中元素在table中的位置

#match(x, table, nomatch = NA_integer_, incomparables = NULL)
match(c(1, "TRUE"), c(T, 0, "1"))
#返回3 1,即1位于表中的3号位,TRUE位于1号位,且T和TRUE可匹配成功

第二种简洁,返回x中每个元素在table中是否存在

#  x %in% table
c(1, "TRUE", F) %in% c(T, 0, "1")
#返回TRUE TRUE FALSE,表示每个元素在table中是否存在

pmatch函数是一个部分匹配函数, 依次从x里面挑出元素, 对照table进行匹配, 若匹配上则剔除匹配上的值, 不再参与下次匹配, duplicate.ok可设置是否剔除; 对于某一个元素, 匹配一共分成三步:

如果可以完全匹配, 则认为匹配上了, 返回table中的位置;
不满足上述条件, 如果是唯一部分匹配, 则返回table中的位置;
不满足上述条件, 则认为没有值与其匹配上.
pmatch函数的格式

pmatch(x, table, nomatch = NA_integer_, duplicates.ok = FALSE)

pmatch(rep(1, 3), rep(1, 5))
#允许重复,返回位置1 1 1
pmatch(rep(1, 3), rep(1, 5), duplicates.ok = TRUE)
上一篇 下一篇

猜你喜欢

热点阅读