《网站数据挖掘与分析》——值得精读的数据指南

2018-04-04 本文已影响21人升生

一、
数据工作链：产生-采集-储存-提取-挖掘-分析-展现-集成应用；
数据分析的传统方法：趋势-细分-转化；
二、
更深次方法：数据挖掘、统计学、人工智能、商业智能；
未来方向：数据作用将集中在数据驱动、系统智能工作机制；辅助决策则蜕变为非重要应用；
三、
数据管理相关；

此书图片

一、数据工作链&数据分析

数据碎片化严重：多平台、多渠道、多终端；
登录率不一：采用cookie等唯一用户ID来统计；

数据.jpg

数据提取、数据清洗、数据汇总、结论输出；

附数据平台应有功能（其思路其他产品亦可参考）：

建立数据决策主题→分析主题→评估决策建议→决策实施
每次决策实施是上一次辅助决策的终点又是下一次辅助决策的开始。

数据在企业中的价值评估出错；
数据质量；
采集方式错误；
数据需求和业务需求匹配度不高；
数据公正性和客观性；

业务类：利用挖掘算法为业务提供数据分析、挖掘价值点；
技术类：利用挖掘算法为数据产品（DSP、RTB、个性化推荐）提供支持；
前者是辅助决策，后者为数据驱动；后者只进行调优、人工干预规则，但不参与决策；
模型类型：

模型分类	模型特征	模型优点	模型缺陷
回归模型	y=ax²+bx+c	变量关系明确，视觉即可判断	只能分析少量变量关系
聚类模型	将大量的数据相似或相邻数据归为一类	适合数据初步探索	无法回答为什么，无法提供行动指向
关联模型	从大量数据中发现两种数据的关系，经典应用于购物车	简单易于理解	缺乏时间因素关联
时间序列	研究数据随时间变化趋势	用于异常数据检测、周期效果判断	较短时间的判断不精准，可以作为回归模型的补充
分类模型	预测的是数据成为某个分组的可能性，根据结果分析特征、根据特征预测结果	可执行性和应用性强	难度较高
机器学习	机器自我数据推理、归纳、演进		有限的学习能力

原始数据：处于原始状态、未经过处理的数据；
模型数据：经过处理的标准化、整合的数据；

算法	算法原理	缺陷
协同过滤	利用兴趣相同、拥有共同经验的群体喜好来预测用户喜好的方法；自动化和个性化程度高，能处理复杂内容和推荐对象，可以发现用户的新兴趣点	无法完美解决数据稀疏性、拓展性较差
关联规则	从数据上发现商品的关联性，来进行推荐；	产品之间存在同义性将无法产生准确结果，且数据抽取规则复杂且耗时，无法实时；
基于内容推荐	个人理解是用户喜欢了一个产品，会将相同标签下的不同产品推荐	同协同过滤
基于社会网络推荐	通过手机用户在社交网络上的数据，进行挖掘推荐；	复杂耗时，局限性强

组合算法：

控制算法：

读后感结语：
若有意了解数据在产品中的流转状态，可以精读此书。但个性化化方面等新兴应用的见解已经落后，需要从其他方面吸收。