2021-02-01 判别分析统计的自白:你真的懂我嘛
回归模型的普及性在于使用预测与解释来度量变量,但对于非度量变量,一般的多元回归并不适用,因此本文来介绍适用于解释变量在非度量变量的情形——判别分析方法。例如,我们希望区分好和差的信用风险,如果有信用风险的度量指标,则可选择多元回归,但若需要判断人是在好的或者差的一类,这个不单单是多元回归所要求的范畴了。
那么本文就从七大方面来清楚的解析下判别分析,从理论上对判别分析这一特别的统计分析方法能有深刻的认识。避免在自己论文或者学习中需要方法切换时不知判别分析为何物,在导师面前暴露自己基本功知识不足的问题。
一、定义
判别分析又称分辨法",是在分类确定的条件下,根据某一硏究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。
二、判别分析的一般形式
事先非常明确共有几个类别,目的是从已知样本中训练出判别函数。
三、前提假设(有点类似多重回归分析)
1各自变量为连续性或有序分类变量
2自变量和因变量符合线性假设
3各组的协方差矩阵相等,类似与方差分析中的方差齐
4变量间独立,无共线性
注:违反条件影响也不大,主要看预测准不准,准的话违反也无所谓
四、用途
1对客户进行信用预测;
2.寻找潜在客户等
五、判别分析常用判别方法
1最大似然法适用于自变量均为分类变量的情况,算出这些情况的概率组合,基于这些组合大小进行判别
2距离判别对新样品求出他们离各个类别重心的距离远近,适用于自变量均为连续变量的情况,对变量分布类型无严格要求
3 Fisher判别法
与主成份分析有关,对分布、方差等都没有什么限制,按照类别与类别差异最大原则提取公因子然后使用公因子判另
4 Bayes判另强项是进行多类判别,要求总体呈多元正态分布。利用贝叶斯公式,概率分布逻辑衍生出来一个判别方法,计算这个样本落入这个类别的概率,概率最大就被归为一类在SPSS中一般用d-Fisher判别即可,要考虑概率及误判损失最小的用Bayes判别,但变量较多时般先进行逐步判別筛选出有统计意义的变量,但通常在判别分析前我们已经做了相关的预分析,所以不推荐使用逐步判别分析(采用步进法让自变量逐个尝试进入函数式,如果进入到函数式中的自变量符合条件,则保留在函数式中,否则,将从函数式中剔除)。
看到这里是不是有些许的懵了?好像和我们之前说的聚类分析有点迷之相似?那我们来对比下关于聚类分析与判别分析。
六、聚类分析与判别分析的区别与联系
首先,两个方法都是硏究分类的。聚类分析,对总体到底有几种类型不知道(硏究分几类较为合适需从计算中加以调整)。判别分析则是在总体类型划分已知,对当前新样本判断它们属于哪个总体。如我们对研究的多元数据的特征不熟悉,当然要进行聚类分析,才能考虑判別分析问题。
七、判别分析得到的判别函数效果评判方法
1自身验证(拿训练数据直接预测验证,但是对预测样本预测好不代表对新样本预测好)
2外部数据验证(收集新的数据来验证,这是最客观最有效的,但是麻烦而且两次收集的数据不一定是同质的)
3样本二分法(一般划分2/3为训练集,1/3为验证集,但是浪费了1/3的样本)
4交互验证(Cross-Validation)--刀切法(10分法,数据划分为10个集合,每次挑选一个出来做验证集,其余9个做训练集,可以做10次,因为验证集可换10种可能)
参考文献:
何晓群.现代统计分析方法与应用[M]. 中国人民大学出版社, 1998.
以上就是本期关于判别分析理论方法的分享和梳理,我们会在下期分析关于判别分析SPSS软件结合实际案例进行数据分析,在掌握了理论方法后进行实际操作,会更加深入的分析和了解判别分析哦~尽请关注下期判别分析的SPSS实际案例操作!还没关注的小伙伴点击关注哦~