R中将汉字转为拼音

2022-02-22  本文已影响0人  董八七

今天给朋友处理数据,性状等用汉字。分析时汉字总有各种问题,所以需要转成字母/数字。量大时手动转换耗时费力,用程序转换势在必行。检索到有Rpinyin可供使用。列几条用法。

#调包
library(tidyverse)
library(pinyin)

# 主函数是py()
py("汉字")
#    汉字 
# "hàn_zì" 

默认参数给的拼音带声调。不需要声调呢?

#调字典
py("汉字", dic = pydic(dic = c("pinyin2")))
#      汉字 
#"han4_zi4" 

字间用下横线连接,声调用数字表示,跟在每个字的拼音后。这时想要去掉数字就简单了。

py("汉字", dic = pydic(dic = c("pinyin2"))) %>% str_remove_all("\\d{1,}")
#"han_zi"

输出的拼音字符也可以只保留首字母。

py("汉字", dic = pydic(only_first_letter =T,dic = c("pinyin2"))) %>% str_remove_all("\\d{1,}")
"h_z"

上一篇 下一篇

猜你喜欢

热点阅读