计算机杂谈一个3年还无所长的产品产品经理

《网站数据挖掘与分析》——值得精读的数据指南

2018-04-04  本文已影响21人  升生

目录:

一、
数据工作链:产生-采集-储存-提取-挖掘-分析-展现-集成应用;
数据分析的传统方法:趋势-细分-转化;
二、
更深次方法:数据挖掘、统计学、人工智能、商业智能;
未来方向:数据作用将集中在数据驱动、系统智能工作机制;辅助决策则蜕变为非重要应用;
三、
数据管理相关;

此书图片

一、数据工作链&数据分析

1. 数据来源

数据碎片化严重:多平台、多渠道、多终端;
登录率不一:采用cookie等唯一用户ID来统计;

数据.jpg

2. 数据统计

数据提取、数据清洗、数据汇总、结论输出;

附数据平台应有功能(其思路其他产品亦可参考):

数据管理 相应功能
配置管理 数据存储、安全、排除设置,并发控制,进程控制,结构控制
数据权限 数据保存、新增、删除、更新、备份、合并、拆分、导出、打印
用户权限 用户新增、删除、重置、过期设置、共享等
数据导入 数据导入格式、时间、条件、规则、异常处理、记录数、来源等
数据导出 数据导出格式、时间、条件、规则、加密、记录数、位置等
数据展示 对比、趋势、主要维度下钻

数据不准确的可能原因

3. 数据分析

建立数据决策主题→分析主题→评估决策建议→决策实施
每次决策实施是上一次辅助决策的终点又是下一次辅助决策的开始。

4. 数据可能导致的错误

数据在企业中的价值评估出错;
数据质量;
采集方式错误;
数据需求和业务需求匹配度不高;
数据公正性和客观性;

二、数据挖掘

业务类:利用挖掘算法为业务提供数据分析、挖掘价值点;
技术类:利用挖掘算法为数据产品(DSP、RTB、个性化推荐)提供支持;
前者是辅助决策,后者为数据驱动;后者只进行调优、人工干预规则,但不参与决策;
模型类型:

模型分类 模型特征 模型优点 模型缺陷
回归模型 y=ax²+bx+c 变量关系明确,视觉即可判断 只能分析少量变量关系
聚类模型 将大量的数据相似或相邻数据归为一类 适合数据初步探索 无法回答为什么,无法提供行动指向
关联模型 从大量数据中发现两种数据的关系,经典应用于购物车 简单易于理解 缺乏时间因素关联
时间序列 研究数据随时间变化趋势 用于异常数据检测、周期效果判断 较短时间的判断不精准,可以作为回归模型的补充
分类模型 预测的是数据成为某个分组的可能性,根据结果分析特征、根据特征预测结果 可执行性和应用性强 难度较高
机器学习 机器自我数据推理、归纳、演进 有限的学习能力

1. 数据驱动的个性化推荐

数据层

原始数据:处于原始状态、未经过处理的数据;
模型数据:经过处理的标准化、整合的数据;

算法层

算法 算法原理 缺陷
协同过滤 利用兴趣相同、拥有共同经验的群体喜好来预测用户喜好的方法;自动化和个性化程度高,能处理复杂内容和推荐对象,可以发现用户的新兴趣点 无法完美解决数据稀疏性、拓展性较差
关联规则 从数据上发现商品的关联性,来进行推荐; 产品之间存在同义性将无法产生准确结果,且数据抽取规则复杂且耗时,无法实时;
基于内容推荐 个人理解是用户喜欢了一个产品,会将相同标签下的不同产品推荐 同协同过滤
基于社会网络推荐 通过手机用户在社交网络上的数据,进行挖掘推荐; 复杂耗时,局限性强

组合算法:

控制算法:

读后感结语:
若有意了解数据在产品中的流转状态,可以精读此书。但个性化化方面等新兴应用的见解已经落后,需要从其他方面吸收。

上一篇下一篇

猜你喜欢

热点阅读