2020-05-21-数据挖掘与应用

2020-05-20 本文已影响0人天堑星曦

数据挖掘与应用(week-12)

把知识分解，成为自己的代码银行。成为分解者和生产者。

方法一：

第一步逐行读取

读为列表，

第二步，jieba的提取主题词

jieba.analyse.extract_tags 提取主题词

image-20200522081505153

第三步，extend()，不用自己解嵌套了。

第四步，词频处理

image-20200522082119555

方法二：

image-20200522082157423

方法三：

不依赖python库

image-20200522082340829

取集合就可以去重，循环集合，然后数这个词在整个列表中的出现次数

mycount = [(i,(word_list.count(i))) for i in set(word_list)]

pd.DataFrame(mycount,columns = ['高频词','频次']).sort_values(by="频次" , ascending=False)

方法四

image-20200522082717143

方法比较

image-20200522083608783

image-20200522083359502

所以，先读取列表就比较快，先读取字符串再分词为列表就比较慢

新的内容

模型权重

image-20200522083703496

分词

image-20200522083720352

删除，使用正则表达式

image-20200522083733216

image-20200522083820827

删除单字词

image-20200522083853441

image-20200522084043314

extend的作用

image-20200522084105696

实际案例一

方法一：

image-20200522084410028

第一步，数据读取

image-20200522084754320

第二步，字符串转为含字典的列表

image-20200522085057579

数据抓取都有法律风险，外面的都不敢接了，所以才找到学校做舆情月报周报这样。大家要明确自己的东西属于那一类，不要去炫耀，要低调。

方法二：

转为字符串，去掉逗号

image-20200522085211334

再转为嵌套列表

image-20200522085248522

嵌套后解套就可以了

image-20200522085336158

实际案例二

纯txt案例

image-20200522085530943

数据构思

image-20200522085818139

image-20200522090006972

dataframe 读取嵌套字典

image-20200522090159416

分词要点：不要先删除标点后分词

image-20200522094256157

image-20200522094328902

2020-05-21-数据挖掘与应用

数据挖掘与应用(week-12)

方法一：

第一步逐行读取

第二步，jieba的提取主题词

第三步，extend()，不用自己解嵌套了。

第四步，词频处理

方法二：

方法三：

方法四

方法比较

新的内容

模型权重

分词

删除，使用正则表达式

删除单字词

extend的作用

实际案例一

方法一：

第一步，数据读取

第二步，字符串转为含字典的列表

方法二：

转为字符串，去掉逗号

再转为嵌套列表

嵌套后解套就可以了

实际案例二

纯txt案例

数据构思

dataframe 读取嵌套字典

猜你喜欢

热点阅读

2020-05-21-数据挖掘与应用

数据挖掘与应用(week-12)

方法一：

第一步 逐行读取

第二步，jieba的提取主题词

第三步，extend()，不用自己解嵌套了。

第四步，词频处理

方法二：

方法三：

方法四

方法比较

新的内容

模型权重

分词

删除，使用正则表达式

删除单字词

extend的作用

实际案例一

方法一：

第一步，数据读取

第二步，字符串转为含字典的列表

方法二：

转为字符串，去掉逗号

再转为嵌套列表

嵌套后解套就可以了

实际案例二

纯txt案例

数据构思

dataframe 读取嵌套字典

猜你喜欢

热点阅读

第一步逐行读取