工匠数据分析Chiawei的编程技术专辑

R语言词频统计与词云分析

2017-11-08  本文已影响2556人  弗兰克工匠

最近对数据产品经理这个岗位比较感兴趣,想分析一下当前这个方向的就业条件和职责,简单使用R的jiebaR包对搜集来的岗位描述要求描述进行词频的分析和词云的生成。

程序

首先,准备好数据文件jds.txt。此文件内容是从拉勾网搜索“数据产品经理”的结果中具有代表性的职位描述中提取,总共包含大约40份岗位信息。

这里我们使用结巴分词(jiebaR),这是一款高效的R语言中文分词包,感谢国人作者的贡献。代码片段如下:

library(jiebaR)
library(wordcloud)

#读入数据分隔符是‘\n’,字符编码是‘UTF-8’
jd_file <- scan('D:/jds.txt',sep='\n',what='',encoding="UTF-8")

seg<-qseg[jd_file] #使用qseg类型分词
seg<-seg[nchar(seg)>1] #去除字符长度小于1的词
seg<-table(seg)
seg<-seg[!grepl('[0-9]+',names(seg))]#过滤数字
seg

seg <- sort(seg, decreasing = TRUE)[1:50]
#获得词频数前50的词
seg

#制作词云
bmp("jds.bmp", width = 800, height = 800)
wordcloud(names(seg), seg, colors = rainbow(100), random.order=F)
dev.off()

分析

词频统计

如上图所示,词频分析结果,默认的顺序英文分词排序在前,很遗憾这里没有做大小写敏感处理。这些词对应的更多是数据产品经理所需要掌握的技能,比如:axure、excel、hadoop、MySQL、SQL等。大概可以将其分为三类:

Top50词频

分析Top50的词频,可以帮助我们发现公司对这个岗位更全面职责和软硬实力要求,从这些词汇中我们可以发现如下三条:

Top50词云

Future

上一篇 下一篇

猜你喜欢

热点阅读