《网站数据挖掘与分析》——值得精读的数据指南
2018-04-04 本文已影响21人
升生
目录:
一、
数据工作链:产生-采集-储存-提取-挖掘-分析-展现-集成应用;
数据分析的传统方法:趋势-细分-转化;
二、
更深次方法:数据挖掘、统计学、人工智能、商业智能;
未来方向:数据作用将集中在数据驱动、系统智能工作机制;辅助决策则蜕变为非重要应用;
三、
数据管理相关;
一、数据工作链&数据分析
1. 数据来源
数据.jpg数据碎片化严重:多平台、多渠道、多终端;
登录率不一:采用cookie等唯一用户ID来统计;
2. 数据统计
数据提取、数据清洗、数据汇总、结论输出;
附数据平台应有功能(其思路其他产品亦可参考):
数据管理 | 相应功能 |
---|---|
配置管理 | 数据存储、安全、排除设置,并发控制,进程控制,结构控制 |
数据权限 | 数据保存、新增、删除、更新、备份、合并、拆分、导出、打印 |
用户权限 | 用户新增、删除、重置、过期设置、共享等 |
数据导入 | 数据导入格式、时间、条件、规则、异常处理、记录数、来源等 |
数据导出 | 数据导出格式、时间、条件、规则、加密、记录数、位置等 |
数据展示 | 对比、趋势、主要维度下钻 |
数据不准确的可能原因
- 采集入库方式(采集效率&采集周期、异常值处理、库表同步)、验证机制、数据同步时隔、ETL准确性;
- 用户信息填写不规范、采集环境客观差异;
- 数据口径不统一及考虑不周
3. 数据分析
建立数据决策主题→分析主题→评估决策建议→决策实施
每次决策实施是上一次辅助决策的终点又是下一次辅助决策的开始。
4. 数据可能导致的错误
数据在企业中的价值评估出错;
数据质量;
采集方式错误;
数据需求和业务需求匹配度不高;
数据公正性和客观性;
二、数据挖掘
业务类:利用挖掘算法为业务提供数据分析、挖掘价值点;
技术类:利用挖掘算法为数据产品(DSP、RTB、个性化推荐)提供支持;
前者是辅助决策,后者为数据驱动;后者只进行调优、人工干预规则,但不参与决策;
模型类型:
模型分类 | 模型特征 | 模型优点 | 模型缺陷 |
---|---|---|---|
回归模型 | y=ax²+bx+c | 变量关系明确,视觉即可判断 | 只能分析少量变量关系 |
聚类模型 | 将大量的数据相似或相邻数据归为一类 | 适合数据初步探索 | 无法回答为什么,无法提供行动指向 |
关联模型 | 从大量数据中发现两种数据的关系,经典应用于购物车 | 简单易于理解 | 缺乏时间因素关联 |
时间序列 | 研究数据随时间变化趋势 | 用于异常数据检测、周期效果判断 | 较短时间的判断不精准,可以作为回归模型的补充 |
分类模型 | 预测的是数据成为某个分组的可能性,根据结果分析特征、根据特征预测结果 | 可执行性和应用性强 | 难度较高 |
机器学习 | 机器自我数据推理、归纳、演进 | 有限的学习能力 |
1. 数据驱动的个性化推荐
数据层
原始数据:处于原始状态、未经过处理的数据;
模型数据:经过处理的标准化、整合的数据;
算法层
算法 | 算法原理 | 缺陷 |
---|---|---|
协同过滤 | 利用兴趣相同、拥有共同经验的群体喜好来预测用户喜好的方法;自动化和个性化程度高,能处理复杂内容和推荐对象,可以发现用户的新兴趣点 | 无法完美解决数据稀疏性、拓展性较差 |
关联规则 | 从数据上发现商品的关联性,来进行推荐; | 产品之间存在同义性将无法产生准确结果,且数据抽取规则复杂且耗时,无法实时; |
基于内容推荐 | 个人理解是用户喜欢了一个产品,会将相同标签下的不同产品推荐 | 同协同过滤 |
基于社会网络推荐 | 通过手机用户在社交网络上的数据,进行挖掘推荐; | 复杂耗时,局限性强 |
组合算法:
- 加权处理
- 场景差异(新老用户不同算法)
- 混合展示(取几个算法的前几个组合展示)
- 迭代计算(先用一种,再使用其他的算法在基础上优化)
控制算法:
- 过度推荐控制
- 补足推荐控制:推荐结果可能因下架等原因不能展示,需要替代方案;
- 冷启动控制:采用top N、最新项目等;
- 过滤排序控制:
读后感结语:
若有意了解数据在产品中的流转状态,可以精读此书。但个性化化方面等新兴应用的见解已经落后,需要从其他方面吸收。