神一样的产品经理-数据统计分析与挖掘
产品正式发布之后,如何去评价运营效果的好坏呢?评价的依据是什么?答案是“让数据说话”。
产品运营过程中,产生了大量甚至海量的数据,需要对这些数据进行统计分析和挖掘,将数据智能地转化为知识,辅助企业做出更佳的决策,赢得市场竞争优势,这也是商业智能(BusinessIntelligence,BI)最基本的应用。
人们通过归纳、演绎、比较等手段对信息进行挖掘,使其有价值的部分沉淀下来,并与已存在的人类知识体系相结合,这部分有价值的信息就转变成知识。
知识的金字塔层次从低到高包括4个层次:数据、信息、知识和智慧。其中,数据是形成信息、知识和智慧的基础和源泉。
数据统计分析与挖掘的流程主要包括确定目标、数据准备、数据选择、数据预处理、挖掘模型、模型评估和发布结果7个阶段。
1 确定目标
是指明确要进行数据统计分析和挖掘的目标是什么?为什么要进行?能够解决哪些问题(商业问题)?根据数据统计分析和挖掘得到的结果,是否可以采取相应的行动以提高KPI?期望数据挖掘模型能够给我们怎样的精确率?需要在数据中找出自变量和因变量,以及数据背后的真相,即找出自变量是如何影响因变量的。此外,还需要考虑特定的时间、人力、物力和财力等约束条件,目标不要脱离实际情况。
2 数据准备
数据准备阶段主要是数据采集,根据确定的数据统计分析和挖掘目标,在产品需求文档里已经提出了数据统计分析的需求,开发人员在编码的时候将统计代码加入。产品上线之后,用户使用产品的行为轨迹都可以通过数据库及日志采集获得需要的数据。
3 数据选择
通过数据采集阶段,采集到了用户各个方面的数据,根据确定的数据统计分析和挖掘目标,从数据库中提取相关的需要用到的数据。此外,还包括数据的样本抽取。
4 数据预处理
数据预处理主要包括数据清理、数据集成和数据变换。
数据清理:污染数据的普遍存在使得在大型数据库中维护数据的正确性和一致性成为一个极其困难的任务,所以要对数据进行清理,将数据格式进行标准化,清除异常数据,进行数据错误纠正,清除重复数据。
数据集成:多种数据源可以组合在一起,注意数据的冗余和重复处理,检测和处理数据值之间的冲突。
数据变换:变换成适合挖掘的形式,变换数据的标准化,生成新的变量,对数据进行重新编码,从变量角度或者从记录角度进行数据降维。
5 挖掘模型
选择和应用不同的数据挖掘模型,模型参数被调整到最佳的数值。一般而言,有些模型可以解决一类相同的数据挖掘问题,而有些模型在数据形成上有特殊要求,因此,需要经常跳回到数据准备阶段。数据挖掘模型技术主要分为两类:描述(了解数据中潜在的规律),包括聚类和关联等;预言(用历史预测未来),包括决策树、神经网络和回归等。
6 模型评估
识别提供知识的真正有趣的模式,对采用的数据挖掘模型进行检验和评价,用测试样本集对挖掘结果进行测试,可以进行方法层面的检验,如采用训练集和检验集,使用不同方法的互相印证和比较,进行模型准确性的检验等;还可以进行商业层面上的检验,如利润率的检验、模型结果可操作性的检验以及其他检验等。
7 发布结果
使用可视化技术发布数据分析和挖掘结果,可起到形象、生动、容易理解的作用。俗话说:“一图抵千言”就是这个道理。