懂得了这些套路,数据建模轻松搞定
数据分析是一个检查、清理、转换和数据建模的过程,目的是发现有用的信息、提出结论和支持决策依据。数据建模是数据分析里的一项,数据建模里又有一些常见的套路:选择变量与重构变量、选择算法、设定参数、加载算法和测试结果。
选择变量与重构变量
数据分析师在拿到数据时(不管是自己爬取还是数据框里提取的)不是对所有的变量都要进行分析或者纳入到模型里,有许多变量起不到数据“分析”的任务(比如列号,也是数据集里的变量),有的变量跟数据分析师所需要达到的目的没有关系,这就是选择变量的重要性,一般来说选择变量有两个标准:数据逻辑和业务参考。
数据逻辑:
所谓数据逻辑,一般从数据的完整性、集中度和变量相关性(有时候还有考虑因果关系)等角度考虑,一个变量缺失率达到80%,或者一个非布尔值变量但却集中两个值……这些都要考虑加入这些变量后是否对后面的分析有价值。
业务参考:
变量基于收集到的数据,在做目标性的数据分析时会产生与业务产生关联,比如共享单车数据集车轮胎这个变量里,轮胎数不会是1或者3吧,在接下来的建模中,业务知识告诉你是不会选择这个变量的。
选择算法
业务数据分析师所要做的就是要用数据分析解决商业问题,而不是为了建立模型而建模,因此要根据业务背景和所要达到的目的选择模型,根据挖掘目标和数据形式可以建立分类与预测、聚类分析、关联规则、时序模式、偏差检测等模型,帮助企业提取数据中隐藏的商业价值,从以前的主观决策转向更科学的数据决策,提高企业的竞争力。下面列举了一些常见的业务背景和对应的常用算法。
划分消费群体:聚类、分类;
满意度调查:回归、聚类、分类;
购物篮分析:相关、聚类;
购买额预测:回归、时间序列;
满意度调查:回归、聚类、分类。
设定参数
确定好要用那种模型后,就需要对模型进行调查参数,比如经典的聚类分析里的K均值算法就需要给定K的值(希望聚成的类别数量),参数有时候不是一次就能确定好的,需要多次的调整,达到最优的效果。
加载算法与测试结果
模型建立好后需要验证与测试,要根据算法输出结果来确定该算法是否能够解决业务问题,比如聚类算法里除了K均值算法还有系统聚类等,要是K—means的结果不太好就要考虑其他的算法,又或者回归模型输出结果不满足需求,考虑时间序列模型来做;若不需要换算法,还要测试一下输出的结果是否有提示的空间,如聚类分析里的聚类结果有四类,通过可视化发现有两类的特征很相近,区分度不明显,这就造成有很大部分的类处于很模糊的位置,所以就很需要调整参数来优化模型,在不断调参优化模型的过程中,模型的解释性和实用性会得到提升,当模型能够满足业务需求,那就可以输出结果。
这是通常建模的一般流程,而建模只是数据分析里其中一项;流程的熟悉、业务的理解、算法理论及代码的熟练等等都是考验一个数据分析师的能力;最后希望这篇文章能够帮助到你建模时构建一个框架,而不至于在建模时不知道干嘛;在学习的道路上你我共勉!
【延伸阅读】
CDA数据分析就业班课程是专门为想要从事数据分析类工作所研发的精品课程,该课程包含Excel、Power BI 、Tableau等业务数据分析相关内容以及数据挖掘的数学基础、SPSS软件基础、运用SPSS构建统计模型、Python基础、数据清洗、网络爬虫、Python机器学习等数据挖掘和机器学习相关内容,并结合评分卡、电商、零售等实战项目案例课程,帮助学员迅速掌握业务数据分析、数据挖掘、机器学习相关岗位技能,学员毕业后可推荐相关工作岗位。
更多详细内容信息,可移步:https://www.cda.cn/?seo-jianshu