13类高频数据分析方法分类汇总
第一次写论文的同学,常面临这样的难题:多种看似相近的方法让人难以抉择,不确定每种方法的适用情境,也难以区分它们之间的细微差异,稍不留神就可能做出错误的选择。 若你也遭遇此类困惑,不妨参考本篇文章,总结了14类超高频数据分析方法,帮助你明确不同方法的特点及其适用场景,从而确保你能够选择恰当的分析方法。
1、基本描述统计
基本描述统计分析包括频数分析、描述分析、分类汇总;是对收集的数据进行基本的说明。
-
频数分析一般使用频数、百分比、饼图等形式进行描述。
-
描述分析常见的指标有平均值、标准差、最大值、最小值、中位数等;更深入的描述指标包括百分位数、峰度、偏度、变异系数等。
-
分类汇总用于研究不同分类时的汇总情况,输出的指标为汇总结果。比如不同区域分类项,销售额(汇总项)的差异情况。
2、差异关系研究
常见的差异关系研究方法包括方差分析、t检验、卡方检验、非参数检验。
(1)方差分析
方差分析用于进行定类数据与定量数据之间的差异关系研究;按照研究内容和数据类型等不同,可分为以下几类:
(2)t检验
t检验,用于分析定类数据与定量数据之间的差异情况,按照研究内容和数据类型等不同,可分为以下几类:
(3)卡方检验
卡方检验,用于分析定类数据与定类数据之间的差异情况,按照研究内容和数据类型等不同,可分为以下几类:
(4)非参数检验
前面讲的常见的数据差异性分析方法:例如方差分析、t检验都属于参数检验的范围。参数检验一般需要数据满足正态性、方差齐性。与参数检验相对的是非参数检验,非参数检验不对总体的分布形态做假定,所以当数据不正态或方差不齐时,可使用非参数检验进行差异性研究。
参数检验对应非参数秩和检验如下:
3、相关影响关系
相关影响关系研究包括进行相关分析、回归分析、logistic回归分析三大类。
(1)相关分析
相关分析可分为以下三类:
(2)回归分析
回归分析主要进行影响关系研究,可以细分为四十多种,之前有文章详细梳理过
(3)logistic回归分析
当研究X对Y的影响时,如果因变量Y为定类数据,则应该使用logistic回归分析。
4、信息浓缩方法
因子分析和主成分分析都是信息浓缩的方法,即将多个分析项信息浓缩成几个概括性指标。如果希望进行将指标命名,SPSSAU建议使用因子分析。原因在于因子分析在主成分基础上,多出一项旋转功能,该旋转目的即在于命名。
5、聚类分析方法
聚类分析是一种无监督学习方法,旨在将数据集中的对象根据其特征划分为相似的组或簇。
6、信度分析
信度是指测量工具在重复测量同一对象时,所得结果的一致性和稳定性。常见的有以下5类信度系数:Cronbach α信度系数、折半信度、McDonald's ω信度、theta信度、重测信度。
7、效度分析
效度有很多种,可分为四种类型:内容效度、结构效度、区分效度、聚合效度。
8、问卷常用模型
量表类问卷分析时,经常会结合以下方法进行深入研究:中介作用、调节作用、调节中介、路径分析、结构方程模型,说明如下:
9、权重研究
权重研究是用于分析各因素或指标在综合体系中的重要程度,最终构建出权重体系。权重计算的方法有很多种,包括主观赋权法、客观赋权法,也可进行组合赋权,下面是一下相对常用的指标权重计算方法:
10、综合评价
综合评价是一种方法,用于对多个方案或对象进行比较和排序,以确定其优劣程度,通常基于多个指标的综合得分。常用的综合评价方法有TOPSIS法、熵权TOPSIS法、灰色关联法、模糊综合评价等。
11、预测类分析方法
根据历史数据进行数据预测,常用的预测类分析方法包括指数平滑法、灰色预测模型、ARIMA预测、季节Sarima法、马尔科夫预测等。
12、医学Meta分析
Meta荟萃分析是一种综合各种文献结论,进而汇总综合评价的方法。按照数据类型,Meta分析可包括多种类型,比如连续性数据进行均值差异比较,二分类数据进行比率差值对比(或计算优势比OR值,相对危险度RR值等),当然SPSSAU中还包括单个率、相关系数、平均值,或者OR值/HR值的Meta分析等,并且提供一般倒方差法时的Meta分析。
13、文本分析
文本分析是一种对文本数据进行处理和理解的技术,旨在从中提取有用的信息和见解。针对文本数据可进行词云分析、文本情感分析、文本聚类分析、社会网络关系图、LDA主题分析。说明如下: