#Python3组数据挖掘实战总结#

2018-01-12  本文已影响0人  DrBear_smile

数据挖掘实战课程

章节1 课时2

定义

Data mining, DM

大量的数据中,通过统计学、人工智能、机器学习等方法挖掘出未知的、且有价值的信息和知识的过程。

数据挖掘工程师往往是熟悉和理解业务的人

数据挖掘 VS 数据分析

模型VS规则

算法则是求解模型的步骤与方法

章节1 课时3

常见问题

商业角度的问题->数据挖掘

各方法特点

  • 决策树、贝叶斯、KNN等
  • 用户流失,促销响应等
  • 层次、网格、密度等
  • 目标市场细分、现有客户细分等
  • Aprior、Carma、序列
  • 交叉销售
  • 线性回归、时间序列
  • 气温、GDP、收入、用户数预测等

章节1 课时4

CISP-DM

1. 商业理解

2. 数据理解

3. 数据准备

4. 模型构建

5. 模型评估

6. 模型部署

章节2 课时5

文本挖掘

案例

常用词汇统计

语料库

待分析文档的集合

filePaths = []
for root, dirs, files in os.walk(
    "D:\\PDM\\2.1\\SogouC.mini\\Sample"
):
    for name in files:
        filePaths.append(os.path.join(root, name))

章节2 课时6

中文分词

利用命令行pip install jieba即可

增加自定义分词,词库构建

章节2 课时7

词频统计

dataframe.groupby()

  • 最终统计剔除~isin(stopwords)
  • 分词时直接剔除

章节2 课时8

词云绘制

章节2 课时9

词云梅花

  • 准备好词频数据
wordcloud
mask
  • 调整图片质量,尺寸

章节2 课时10

关键词提取

jieba.analyse.extract_tags(content, topK)

章节2 课时11

关键词提取原理

TF-IDF原理

文档向量化

正则表达式

import re
re.complile(u'[\u400-u9fa5]+')

章节2 课时12

sklearn

scikit-learn, bsd-开源许可

章节2 课时13

相似文章推荐

推荐

理论依据:余弦相似度

章节2 课时14

自动摘要

短文,全面准确反映

  • 获取到需要摘要的文章
  • 对该文章进行词频统计
  • 对该文章进行分句(跟进标点)
  • 计算分句与文章之间的余弦相似度
  • 取相似度最高的分句,作为文章的摘要

章节3 课时15

关联程度的基本测度之一

  • 方向:正、负相关
  • 量级:低度(0,0.3) 中度 [0.3,0.8) [0.8,1]
numpy.corrcoef(X,Y)
上一篇下一篇

猜你喜欢

热点阅读