「文本分析」07字频统计和词云图的绘制
1.字频统计:collections.Counter
(1)指定文本
指定文本字频统计from collections import Counter
cnt = Counter()
for word in ['red', 'blue', 'red', 'green', 'blue', 'blue']:
cnt[word] += 1
print(cnt.most_common())
(2)随机生成文本
随机生成文本字频统计import random
import collections
import string
#大小写复合字母
str1=string.ascii_letters
#小写:str1=string.ascii_lowercase
#大写:str1=string.ascii_uppercase
strlist=[random.choice(str1) for i in range(100)]
strcount=collections.Counter(strlist)
#输出词频排前10的字母
for key,value in strcount.most_common(10):
print(key,value)
(3)读取文本文件
读取文本 读取文本字频统计2.词云图:WordCloud库
参考博文:https://www.cnblogs.com/qq21270/p/7695275.html
(1)词云图:
词云图1 词云图2(2)设置其它参数
词云图3 词云图4【注】参数说明
①字体:font_path
msyh.ttf 微软雅黑
msyhbd.ttf 微软雅黑 粗体
simsun.ttc 宋体
simhei.ttf 黑体
②主体色调:colormap
autumn 从红色平滑变化到橙色,然后到黄色。
bone 具有较高的蓝色成分的灰度色图。该色图用于对灰度图添加电子的视图。
cool 包含青绿色和品红色的阴影色。从青绿色平滑变化到品红色。
copper 从黑色平滑过渡到亮铜色。
flag 包含红、白、绿和黑色。
gray 返回线性灰度色图。
hot 从黑平滑过度到红、橙色和黄色的背景色,然后到白色。
hsv 从红,变化到黄、绿、青绿、品红,返回到红。
jet 从蓝到红,中间经过青绿、黄和橙色。它是hsv色图的一个变异。
line 产生由坐标轴的ColorOrder属性产生的颜色以及灰的背景色的色图。
pink 柔和的桃红色,它提供了灰度图的深褐色调着色。
prism 重复这六种颜色:红、橙、黄、绿、蓝和紫色。
spring 包含品红和黄的阴影颜色。
summer 包含绿和黄的阴影颜色。
white 全白的单色色图。
winter 包含蓝和绿的阴影色。