2020-05-21-数据挖掘与应用
2020-05-20 本文已影响0人
天堑星曦
数据挖掘与应用(week-12)
把知识分解,成为自己的代码银行。成为分解者和生产者。
方法一:
第一步 逐行读取
读为列表,
第二步,jieba的提取主题词
image-20200522081505153jieba.analyse.extract_tags 提取主题词
第三步,extend(),不用自己解嵌套了。
第四步,词频处理
image-20200522082119555方法二:
image-20200522082157423方法三:
不依赖python库
image-20200522082340829取集合就可以去重,循环集合,然后数这个词在整个列表中的出现次数
mycount = [(i,(word_list.count(i))) for i in set(word_list)]
pd.DataFrame(mycount,columns = ['高频词','频次']).sort_values(by="频次" , ascending=False)
方法四
image-20200522082717143方法比较
image-20200522083608783 image-20200522083359502所以,先读取列表就比较快,先读取字符串再分词为列表就比较慢
新的内容
模型权重
image-20200522083703496分词
image-20200522083720352删除,使用正则表达式
image-20200522083733216 image-20200522083820827删除单字词
image-20200522083853441 image-20200522084043314extend的作用
image-20200522084105696实际案例一
方法一:
image-20200522084410028第一步,数据读取
image-20200522084754320第二步,字符串转为含字典的列表
image-20200522085057579数据抓取都有法律风险,外面的都不敢接了,所以才找到学校做舆情月报周报这样。大家要明确自己的东西属于那一类,不要去炫耀,要低调。
方法二:
转为字符串,去掉逗号
image-20200522085211334再转为嵌套列表
image-20200522085248522嵌套后解套就可以了
image-20200522085336158实际案例二
纯txt案例
image-20200522085530943数据构思
image-20200522085818139 image-20200522090006972dataframe 读取嵌套字典
image-20200522090159416image-20200522094256157 image-20200522094328902分词要点:不要先删除标点后分词