统计模型实际应用场景

2019-04-05 本文已影响0人 HELLOTREE1

参考
常用统计模型: 决策树&回归&K均值聚类&因子分析
分别对应数据分析的思路：分类，回归，聚类，降维。

1 决策树

定义：机器学习中，决策树是一个预测模型；它代表的是对象属性与对象值之间的一种映射关系。

基本应用于给人群分类，最好的应用场景是要把人群分为互斥的两类，并找到两类人群的不同特征。当然，分为多个互斥类别也OK。

用户流失模型
举个例子，对于某款端游，定义超过一周不登录用户为流失，那么做过的任务、拿到的装备、打过的副本、充值金额等等，都可以作为预测用特征，比对流失与非流失用户，找到两者的区别，在关键流失节点上加一些运营策略来减少流失。

定义：k-means聚类的目的是：把n个点（可以是样本的一次观察或一个实例）划分到k个聚类中，使得每个点都属于离他最近的均值（此即聚类中心）对应的聚类，以之作为聚类的标准。

当样本量巨大时候,可以快速分群------->需要注意分群的可解释性
分类与聚类的不同: 分类需要事先知道特征,但是聚类探索特征未知的领域

数据库营销\啤酒与尿布 举例，对于一个超市/电商网站/综合零售商，可以根据用户的购买行为，将其分为“年轻白领”、“一家三口”、“家有一老”、”初得子女“等等类型，然后通过邮件、短信、推送通知等，向其发起不同的优惠活动。

定义：因子分析是指研究从变量群中提取共性因子的统计技术。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子，可减少变量的数目，还可检验变量间关系的假设。

因子分析是降维的一种方式，而降维归根结底就是一句话：变量太多的时候，需要将变量重构成带有更多信息的新变量，新变量与原始变量之间存在相关性，这样才能在不损失太多原始信息的情况下减少变量数量。

因子分析的一个典型应用场景是满意度调查。通过市场调研方式获取消费者满意度时，通常会有两位数的问题来了解消费者对哪些方面满意，哪些方面不满意，这个时候因子分析就很重要，可以将消费者的问题归结为相对较少的几个大问题方向，同时也可以看出哪些问题更为重要，需要优先解决。