职场Office技巧原来你是这样的office大数据

用PPT自带的Pro Word Cloud制作中文词云

2018-04-12  本文已影响63人  华天清

上篇文章《用PPT制作词云》中使用的分词文本是英文,如果针对中文,参照上篇的方法使用PPT中的Pro Word Cloud是不能形成一个正确的词云图的。

因为该插件的原理是“识别空格之间的词语,进而对其词语进行词频统计,根据词频大的词语字体大,词频小的词语字体小的原则形成词云图”,下面用一个小实验来验证一下。

将一段中文文本复制进PPT实验,产生的词云图就是一段句子。如下图所示。

如果我人为地将中文文本进行空格分隔,可以看到词云图上的词语就是我们空格分隔所形成的“词语”。

因为英文本身是有空格分隔词的,所以形成的词云没有任何问题,换成中文的话,就需要已经分好词的文本才可以。简而言之,中文比英文多了一道“加工”程序而已。

借助集搜客GooSeeker的分词打标软件来生成已经分好词的文本,操作步骤如下:

1. 登录集搜客GooSeeker分词打标软件

2. 导入数据

填写任务名称后导入包含一列数据的excel表,文件不要超过10M。

3. 进入我的任务,原数据都加载上来之后,点击“筛选词语”,筛选词语默认勾选全部,如果你不需要某个词,可以对其取消勾选。

将全部词语筛选之后,点击“选词结果”,我们的目的是得到分词结果,所以到第三步后点击下载按钮即可。会有四张表下载,这里只需要用上分词效果表。

我用集搜客GooSeeker网络爬虫在拉勾采集了一些Python软件开发的职位信息,将其中“职位标签”一列提取出来做分词处理,通过上面的分词软件下载分词结果之后,将“分词效果”表中的“分词数据”复制到了txt文档中。

然后再将txt文档中的分词文本复制到了PPT中,选中文本点击“Create Word Cloud”完成。

通过词云,我们可以直观地了解到Python软件工程师的职位标签。

· 职位范围:爬虫、数据挖掘、人工智能、机器学习、后台开发、服务器开发等

· 相辅技能:mysql、mongodb、linux、js、django、php等

· 应用领域:金融、信息安全、游戏、医疗等

如果你还有兴趣,可以再继续浏览下文,我将简单介绍一下用分词软件处理之后的四张表的用途。这四张表分别是:

1. 打标结果

2. 分词效果

3. 切词表

4. 选词结果

打标结果表是一张词与文本的矩阵关系表,左起第一列每行代表一个文本,词语在某个文本中出现一次,矩阵的值即标为1,如果未出现,即为0。这是文档的一种结构化特征表示,该表可用于做进一步的自然语言处理。

分词效果表可以看到原数据、分词数据与打标词。打标词对应文本分出的词语(去除无效词)。

切词表和选词结果都是词频统计结果,前者是软件默认对所有文本进行分词后得出的词频统计结果,后者是你将不需要的词去掉后剩下的词语的频率统计结果。如果你没有去词处理,那么两个结果表会是一样的。

词频表可以做进一步形成可视化图表,比如:python软件工程师职位标签TOP15分布情况。

PS:

本文重点解释下如何用PPT插件Pro Word Cloud对中文文本形成词云图,如果你想进一步了解分词打标软件,移步:

· 软件介绍:分词打标软件资源介绍

· 应用案例:《采集淘宝评论找出爆款关键词》

上一篇下一篇

猜你喜欢

热点阅读