Python学习笔记-3群18组-杜杜狼-2017.8.1

2017-08-01  本文已影响17人  渡笃狼

What a heck! 终于开始学习数据挖掘实战课程了!!!

Lesson 2 数据挖掘概况

数据挖掘(data mining),指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的,且有价值的信息和知识的过程。
数据挖掘是人们处理商业问题的某些方法,我们通过它来获得有价值的结果

模型
定量:数学公式 e.g. Y = a*X
定性:规则 e.g. (年龄>30岁 and 收入>1万元)

算法
实现数据挖掘技术、模型的具体步骤与方法

Lesson 3 数据挖掘常见问题

从商业角度,需要解决哪些问题?


分类问题

分类型目标变量(Y) -- 有监督学习
使用已知目标分类的历史样本来训练
需要对未知分类的样本预测所属的分类

常见分类方法:决策树,贝叶斯,KNN, 支持向量机,神经网络,逻辑回归
解决的商业问题:预测用户流失,促销活动响应,用户信用评估


聚类问题

无分类目标变量(Y) -- 无监督学习
物以类聚思想

常见分类方法:划分聚类,层次聚类,密度聚类,网格聚类,基于模型聚类
解决的商业问题:目标市场细分,指定营销发展策略
现有客户细分


关联问题,又称购物篮问题

无目标变量(Y)
基于数据项关联,描述数据项之间的密切程度,识别频繁发生的模式
解决的商业问题:哪些商品同时购买的几率高,如何提高商品销售和交叉销售


预测问题

数值型目标变量(Y)-- 有监督学习
需有已知目标值的历史样本来训练模型
对未知的样本预测其目标值
常见预测方法:简单线性回归分析,多重线性回归分析,时间序列
解决的商业问题:未来气温预测,GDP增长预测,收入、用户数预测

Lesson 4 数据挖掘流程

CRISP-DM数据挖掘方法论

  1. 商业理解
  1. 数据理解
  1. 数据准备 (数据宽表,又称一维表)
  1. 模型构建
  1. 模型评估
  1. 模型部署

Lesson 5 文本挖掘

语料库 (Corpus)

要分析的所有文档的集合

语料库的构建

构建方法

os.walk(fileDir)
#fileDir是文件夹路径

文件读取

codecs.open(filePath, method, encoding)
#filePath: 文件路径
#method: 打开方式,r, w, rw
#encoding: 文件的编码,中文文件使用UTF-8编码打开
上一篇下一篇

猜你喜欢

热点阅读