机器学习与数据挖掘数据分析玩转大数据

【数据分析师必备】九大常用数据分析方法汇总(下)

2019-05-09  本文已影响1人  奋斗小窝

五、相关分析

定义

相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。

相关关系是一种非确定性的关系,例如,以X和Y分别记一个人的身高和体重,或分别记每公顷施肥量与每公顷小麦产量,则X与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系。

应用

①确定现象之间有无相关关系以及相关关系的类型。对不熟悉的现象,则需收集变量之间大量的对应资料,用绘制相关图的方法做初步判断。从变量之间相互关系的方向看,变量之间有时存在着同增同减的同方向变动,是正相关关系;有时变量之间存在着一增一减的反方向变动,是负相关关系。从变量之间相关的表现形式看有直线关系和曲线相关,从相关关系涉及到的变量的个数看,有一元相关或简单相关关系和多元相关或复相关关系。

②判定现象之间相关关系的密切程度。通常是计算相关系数R及绝对值在0.8以上表明高度相关,必要时应对R进行显著性检验。

③拟合回归方程。如果现象间相关关系密切,就根据其关系的类型,建立数学模型用相应的数学表达式-----回归方程来反映这种数量关系,这就是回归分析。

④判断回归分析的可靠性。要用数理统计的方法对回归方程进行检验。只有通过检验的回归方程才能用于预测和控制。

⑤根据回归方程进行内插外推预测和控制。

图1 相关性分析图例

六、聚类分析

定义:聚类分析将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。其目的在于使类内对象的同质性最大化和类与类间对象的异质性最大化。

聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、K-均值聚类法、模糊聚类法、有序样品聚类法、分解法、加入法、动态聚类法和有重叠聚类等。

应用

①在商业上,聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征,常与用户画像相结合。聚类分析是细分市场的有效工具,同时也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场,并作为多元分析的预处理。

②聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面,通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,可以更好的帮助电子商务的用户了解自己的客户,向客户提供更合适的服务。

③ 在保险行业上,聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组。

④在生物上,聚类分析被用来动植物分类和对基因进行分类,获取对种群固有结构的认识。

图2 聚类分析谱系图示例

七、判别分析

定义:判别分析又称"分辨法",是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。

其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。据此即可确定某一样本属于何类。

当得到一个新的样品数据,要确定该样品属于已知类型中哪一类,这类问题属于判别分析问题。

应用

①给新用户打标签。在对已有用户分群归类的情况下,对于新进来的用户贴标签,便于后续对于新用户的运营。

②信息丢失。对于丢失的数据,可以依据整体的去判断填充。

②直接的信息得不到。

③预报。

图3 判别分析的逻辑步骤框图

八、因子分析

定义:因子分析是指研究从变量群中提取共性因子的统计技术。最早由英国心理学家C.E.斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。

应用

①通过因子得分可以得出不同因子的重要性指标,而管理者则可根据这些指标的重要性来决定首先要解决的市场问题或产品问题。

②在对数据进行处理时,可对数据进行降维处理。

九、主成分分析

定义:主成分分析将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。

通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。其主要思想是降维,将n维特征映射到k维上(k<n),k维是全新的正交特征。这个k维特征称为主元,是重新构造出来的k维特征,而不是简单地从n维特征中去除其余n-k维特征。

主成分分析和因子分析的区别:

因子分析法与主成分分析法都属于因素分析法,都基于统计分析方法,但两者有较大的区别:主成分分析是通过坐标变换提取主成分,也就是将一组具有相关性的变量变换为一组独立的变量,将主成分表示为原始观察变量的线性组合;而因子分析法是要构造因子模型,将原始观察变量分解为因子的线性组合。通过对上述内容的学习,可以看出因子分析法和主成分分析法的主要区别为:

①主成分分析是将主要成分表示为原始观察变量的线性组合,而因子分析是将原始观察变量表示为新因子的线性组合,原始观察变量在两种情况下所处的位置不同。

②主成分分析中,新变量Z的坐标维数j(或主成分的维数)与原始变量维数相同,它只是将一组具有相关性的变量通过正交变换转换成一组维数相同的独立变量,再按总方差误差的允许值大小,来选定q个(q<p)主成分;而因子分析法是要构造一个模型,将问题的为数众多的变量减少为几个新因子,新因子变量数m小于原始变量数P,从而构造成一个结构简单的模型。可以认为,因子分析法是主成分分析法的发展。

应用

①主成分分析能降低所研究的数据空间的维数。即用研究m维的Y空间代替p维的X空间(m<p),而低维的Y空间代替 高维的x空间所损失的信息很少。即:使只有一个主成分Yl(即 m=1)时,这个Yl仍是使用全部X变量(p个)得到的。例如要计算Yl的均值也得使用全部x的均值。在所选的前m个主成分中,如果某个Xi的系数全部近似于零的话,就可以把这个Xi删除,这也是一种删除多余变量的方法。

②有时可通过因子负荷aij的结论,弄清X变量间的某些关系。

③多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位,进而还可以对样本进行分类处理,可以由图形发现远离大多数样本点的离群点。

④由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。

⑤用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。


欢迎前往关注数据宝典公众号,更多数据分析知识分享,以及案例总结分享~~

在数据分析道路上,学无止境,终身成长。

上一篇下一篇

猜你喜欢

热点阅读