【BitTiger读书会】·第二期《数据挖掘导论》
【BitTiger读书会简介】
BitTiger读书会,以书会友。以报告方式,加强组织表达力;以讨论方式,激荡思考判断力,期能扩充知识领域,养成读书习惯。
每周一本好书,一年阅读50本书,集众智,挑好书,留精华内容,创优质社群。
BitTiger读书会,欢迎您的加入!
在上一期的读书活动中,我们读了吴军博士的《智能时代》。接下来四月份的读书活动,我们将以数据为主题,和大家分享《数据挖掘导论》,《Recommender System Handbook》(推荐系统手册)和《Bad Data Handbook》(坏数据处理实用宝典)这三本书的精华。
【分享书籍】
【BitTiger读书会】·第二期《数据挖掘导论》《数据挖掘导论》
【书籍介绍】
豆瓣评分8.4的Data Mining经典读物;
无需数据库背景也可以读懂的数据挖掘书;
从数据、分类、关联分析、聚类和异常检测五个方面,
全面解析数据挖掘;
在一小时的时间里,数据分析师田华与你分享此书的精华、心得和实例。
【嘉宾介绍】
田华(数据分析师)
【电子书下载】
点击此处下载:数据挖掘导论 完整版.pdf
或者从Google网盘下载(国内需翻墙):
https://drive.google.com/file/d/0Bzu4H4u37WXSRDBDcXRmQU1JajA/view
【加入读书会】
获取BitTiger读书会系列读书分享信息,请添加微信ID: saraincs,备注“读书”加入BitTiger读书会活动群
【BitTiger读书会】·第二期《数据挖掘导论》【分享文稿】
《数据挖掘导论》,本书主要分5个主题:数据、分类、关联、聚类、异常检测。这是一本很不错的数据挖掘入门教材,有些地方还是需要结合自己实际的业务去补充知识。
我是按照自己需要的东西去看的,初略的看了一遍,用了关联和聚类的K-MEANS算法。
数据部分:
我分数据预处理、数据汇总统计、数据可视化三个部分去补充书本外的东西。
大概的总结方法:数据预处理的方法:1.值清洗(确定缺失值范围、去除不需要的字段、填充缺失内容、重新取数),2.内容清洗(时间、日期、数值、全半角显示格式不一致,内容中有不该存在的字符,内容与该字段应有内容不符),3.逻辑错误清洗(去重、去除不合理值、修正矛盾内容,4.非需求数据清洗(看上去不需要实际对业务很重要的字段删了)。————也可以按照少多乱的思路去总结自己的数据处理工作。
数据探索:数据特征分析:分布分析、对比分析、统计量、周期性、贡献度
相关性分析:散点图、散点图矩阵、偏相关性、简单相关分析(pearson、spearman、判定系数)—————这部分还是需要看统计学的课本。
数据可视化:原则:最短时间获取信息,尽量的展现最多的信息,图表内容近可能少。————可视化基础报表主要是研究别人做的好的表做模板学习。
分类部分
分类任务就是通过学习一个目标函数(分类模型)f,把每个属性集x映射到预先定义的类标号y。主要的目标是建立很好的泛化功能,即建立能够预测未知样本类标号的模型。这部分挺重要的,实际应用的地方也多。
分类法的例子:决策树分类法、基于规则的分类法、神经网络、支持向量机和朴树贝叶斯分类法。
关联部分
关联规则:如果两个或者多个事物之间存在一定的关联关系,其中一个事物就可以通过其他事物预测。这部分常用的就是购物篮分析,可以拿找订单数据练手,我反正是这么做的。
聚类部分
组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内相似性越大,组间差别越大,聚类就越好。常见的聚类方法:K均值、层次聚类和DBSCAN。
我用的是K均值,容易上手,做了一个基于RFM的客户分群的分析。
客户分群建模步骤:
1.变量预处理(缺失、极值),分类变量转化哑变量(0/1数值)——聚类不支持缺失值。
2.变量标准化:变量的量纲不一样会引起计算距离的偏差。比如年龄(18-100)
3.变量筛选:变量相关、多个维度、商业意义
4.确定分类的个数(3-8个)以下5个指标:ccc值越大越好,差别越大越好,分群越好;F值:F值越大越好;保证分群结果的覆盖率;重复多次分群,看结果稳定;结合业务场景。