干货分享| 理解数据关系看这一篇就够了
上一篇文章已经探讨过如何建立数据分析思路素养,如果对定性数据和定量数据的鉴别还是一知半解,推荐先区分清两者再往下阅读,毕竟数据类型是一切研究的基础。或者参考SPSSAU中的帮助手册里面都有详细说明。
那么在基本的数据类型确认之后,接下来再讨论下问卷研究中常见的研究目的,以及数据研究的一些关系情况。
常见研究目的
问卷研究中常见目的:数据基本描述、影响关系研究、差异关系研究及其它关系。下表格列出研究目的与研究方法的对应关系。
数据基本描述
上表中列出数据基本描述使用到的研究方法:最常见的为频数和描述分析,分别针对定类数据计算百分比,定量数据计算平均值。除此之外,正态性检验或者正态图可以查看定量数据的正态性特质,箱盒图可以查看定量数据的分布、异常离群值情况;词云可以查看定类数据的分布特征情况。
影响关系
上表中列出常见的关系研究涉及方法;相关分析是比较基础的关系研究,以及可以使用散点图直观展示数据关系情况。回归分析研究X对于Y的影响关系,并且Y为定量;同时还有两个方法即逐步回归,分层回归;其实质上均是回归;逐步回归是指让软件自己找出对于Y有影响的X;分层回归是指一次性运行多个回归。
Logistic回归分析时Y均为定性数据,并且可拆分为二元logistic回归,多分类logistic回归。区别在于二元Logistic回归时,Y仅包括0和1两个数字;多分类logistic回归时,Y包括的数字超出2个。
差异关系
上表中列出常见的差异关系研究方法。结合数据类型即可选择出对应的研究方法。方差和T检验的区别在于,如果X的个数仅为2个则可以使用T检验,如果X的个数超出2个只能使用方差分析。
方差分析更深入的研究时,会涉及方差齐性检验,正态性检验等;如果不满足条件则使用非参数检验较好。而且再进一步的深入分析时,可以在方差分析后,进行事后多重比较进一步研究。
双因素方差通常用于实验研究,2个X对于Y的影响情况。如果研究中有多个X,此时称作多因素方差(也称多元方差)。
其它高级研究方法
聚类分析是将样本分类,因子分析与主成分分析的功能类似,可用于数据信息浓缩,也可以计算权重,同时还可以利用“综合得分”计算竞争力等。同时还有熵值法,可用于权重计算。
问卷涉及研究方法
如果研究数据为问卷,则可能涉及到信度和效度研究,记住此两种方法仅针对量表数据。同时对于量表数据可使用项目分析,了解量表的区分性情况,删除掉不合理量表项等。同时如果研究中涉及多选题,则有对应五个研究方法可以使用,包括单独的多选题分析,单选与多选的交叉关系研究,多选与单选的交叉关系研究,多选和多选的交叉关系研究等。多选题的分析有时也称作多重响应。
数据间的几类关系情况
接下来着重来讨论一下其中有关数据间的几类关系的部分。
数据间的关系大致可以分成以下三类:差异关系、相关关系、其他关系。
差异关系
通常是研究不同类别的差异性。提到了不同类别,那就涉及到定性数据,差异关系可以包括定性和定量数据的差异性,定性和定性数据的差异性。自然地也就对应到几类研究方法中。
相关关系
是指变量的数值之间存在着非严格的依存关系,比如越如何越如何之类的关系。包括相关关系,还有影响关系等。X对于Y的影响关系情况如何等,此时影响关系又拆分出几种分析算法。
其它关系
比如数据的浓缩,聚类,权重计算等。
在进行数据研究时,首先需要想到的是“我想做什么?”,来回就只有三种关系,那么这种关系有着明显的区分性,对应确认关系情况,加上数据类型的判断,对应就会找出合理的数据研究方法。
总结
在掌握了数据类型识别的基础上结合自己所做研究的目的,就可以选择出适合的分析方式。当然了不同分析方式也有不同使用条件,具体如何选择会在下一篇文章中具体说明。或者也可以直接访问SPSSAU,每个研究方法具体的内容都有详细的说明及注意事项,直接使用SPSSAU的智能分析即可。