Python学习笔记-3群18组-杜杜狼-2017.8.1

2017-08-01 本文已影响17人渡笃狼

What a heck! 终于开始学习数据挖掘实战课程了！！！

Lesson 2 数据挖掘概况

数据挖掘（data mining），指从大量的数据中，通过统计学、人工智能、机器学习等方法，挖掘出未知的，且有价值的信息和知识的过程。
数据挖掘是人们处理商业问题的某些方法，我们通过它来获得有价值的结果

模型
定量：数学公式 e.g. Y = a*X
定性：规则 e.g. (年龄>30岁 and 收入>1万元)

算法
实现数据挖掘技术、模型的具体步骤与方法

Lesson 3 数据挖掘常见问题

从商业角度，需要解决哪些问题？

用户流失预测（分类问题）
促销活动响应（分类问题）
目标市场细分（聚类问题）
交叉销售提升（关联问题）
未来销量预测（预测问题）

分类问题

分类型目标变量（Y） -- 有监督学习
使用已知目标分类的历史样本来训练
需要对未知分类的样本预测所属的分类

常见分类方法：决策树，贝叶斯，KNN, 支持向量机，神经网络，逻辑回归
解决的商业问题：预测用户流失，促销活动响应，用户信用评估

聚类问题

无分类目标变量（Y） -- 无监督学习
物以类聚思想

常见分类方法：划分聚类，层次聚类，密度聚类，网格聚类，基于模型聚类
解决的商业问题：目标市场细分，指定营销发展策略
现有客户细分

关联问题，又称购物篮问题

无目标变量（Y）
基于数据项关联，描述数据项之间的密切程度，识别频繁发生的模式
解决的商业问题：哪些商品同时购买的几率高，如何提高商品销售和交叉销售

预测问题

数值型目标变量（Y）-- 有监督学习
需有已知目标值的历史样本来训练模型
对未知的样本预测其目标值
常见预测方法：简单线性回归分析，多重线性回归分析，时间序列
解决的商业问题：未来气温预测，GDP增长预测，收入、用户数预测

Lesson 4 数据挖掘流程

CRISP-DM数据挖掘方法论

商业理解

确定商业目标（商业背景，成功标准）
确定挖掘目标（相关数据统计口径，数据时间窗口成功标准）
制定项目方案（项目计划，确定建模工具，选用算法）

数据理解

数据收集：形成收集报告
数据描述：求均值，最大值，最小值等，形成数据描述报告
数据探索：形成直方图
质量描述：形成数据质量报告

数据准备（数据宽表，又称一维表）

数据导入
数据抽取
数据清洗（缺失，重复，异常）
数据合并（记录合并，字段合并，字段匹配）
变量计算（求均值，占比，标准化值

模型构建

准备模型的训练集和验证集
选择并使用建模技术和算法
建立模型
模型对比（调整参数）

模型评估

技术层面：设计对照组进行比较，评估指标：命中率，覆盖率，提升度
业务经验

模型部署

营销过程跟踪记录
观察模型衰退变化
引入新的特征优化模型
模型写成程序固化到平台

Lesson 5 文本挖掘

语料库（Corpus）

要分析的所有文档的集合

语料库的构建

构建方法

os.walk(fileDir)
#fileDir是文件夹路径

文件读取

codecs.open(filePath, method, encoding)
#filePath: 文件路径
#method: 打开方式，r, w, rw
#encoding: 文件的编码，中文文件使用UTF-8编码打开

Python学习笔记-3群18组-杜杜狼-2017.8.1

Lesson 2 数据挖掘概况

Lesson 3 数据挖掘常见问题

分类问题

聚类问题

关联问题，又称购物篮问题

预测问题

Lesson 4 数据挖掘流程

CRISP-DM数据挖掘方法论

Lesson 5 文本挖掘

语料库（Corpus）

语料库的构建

猜你喜欢

热点阅读

Python学习笔记-3群18组-杜杜狼-2017.8.1

Lesson 2 数据挖掘概况

Lesson 3 数据挖掘常见问题

分类问题

聚类问题

关联问题，又称购物篮问题

预测问题

Lesson 4 数据挖掘流程

CRISP-DM数据挖掘方法论

Lesson 5 文本挖掘

语料库 （Corpus）

语料库的构建

猜你喜欢

热点阅读

语料库（Corpus）