大师兄的数据分析学习笔记(七）：探索性数据分析（六）

2022-05-04 本文已影响0人 superkmi

大师兄的数据分析学习笔记(六）：探索性数据分析（五）
大师兄的数据分析学习笔记(八）：探索性数据分析（七）

五、复合分析的实现

1. 交叉分析

假设有一张数据表结构如下，点击下载数据：

-	Age	Education	EducationField	Gender	HourlyRate	JobInvolvement	JobLevel	JobSatisfaction
1	41	2	Life Sciences	Female	94	3	2	4
2	49	1	Life Sciences	Male	61	2	2	2
3	37	2	Other	Male	92	2	1	3
4	33	4	Life Sciences	Female	56	3	1	3
5	27	1	Medical	Male	40	3	1	2
6	32	2	Life Sciences	Male	79	3	1	4
7	...	...	...	...	...	...	...	...

最直观的两个切入点是从列的角度分析和从行的角度分析：

从列的角度分析：分析每个属性的特点并进行归纳和总结。

从行的角度分析：从案例的角度进行分析，当数据有标注时，以标注为关注点，案例越多，越接近数据整体的质量。

但是如果只是从列的角度分析和从行的角度分析，则忽略了数据间和属性间的关联性，可能有信息失真。
交叉分析就是一种分析属性和属性间的关系的方法，得到更多的能反映数据内涵的信息。
交叉分析的含义比较广，涉及到的方法比较多，比如：

任意取两列，使用假设检验的方式判断他们之间是否有联系。

也可以以一个或多个属性为行，另一个或多个属性为列，做成透视表，用来更直观地分析两个属性或几个属性之间的关系。

1.1 假设检验方式

假设我们关注上面一段数据的HourlyRate(小时费率)，希望分析不同EducationField之间HourlyRate是否有明显的差异，则可以使用独立T检验方法：

>>>import os
>>>import scipy.stats as ss
>>>import numpy as np
>>>import pandas as pd
>>>import matplotlib.pyplot as plt
>>>import seaborn as sns

>>>df = pd.read_csv(os.path.join(".","data","WA_Fn-UseC_-HR-Employee-Attrition.csv"))
>>>dp_indices = df.groupby("EducationField").indices
>>>dp_keys = list(dp_indices.keys())
>>>n = len(dp_keys)
>>>dp_t_mat = np.zeros([n,n])

>>>for i in range(n):
>>>    for j in range(n):
>>>        p_value = >>>ss.ttest_ind(df[df.EducationField==dp_keys[i]].HourlyRate.values,df[df.EducationField==dp_keys[j]].HourlyRate.values)[1]
>>>        dp_t_mat[i][j] = p_value

>>>sns.heatmap(dp_t_mat,xticklabels=dp_keys,yticklabels=dp_keys)
>>>plt.show()

上图中颜色越深，也就是p值越接近0，以为这两个值越没有关系，反之则认为他们之间越没有差别。

1.2 透视表方式

基于上面的列子，假设我们希望了解不同EducationField和不同的Gender在HourlyRate上的表现：

>>>import os
>>>import numpy as np
>>>import pandas as pd
>>>import matplotlib.pyplot as plt
>>>import seaborn as sns

>>>df = pd.read_csv(os.path.join(".","data","WA_Fn-UseC_-HR-Employee-Attrition.csv"))
>>>piv_tb = pd.pivot_table(df,values="HourlyRate",index=["EducationField"],columns=["Gender"],aggfunc=np.mean)
>>>sns.heatmap(piv_tb)
>>>plt.show()

颜色越深的群体HourlyRate越低，所以我们知道在案例公司中，男性员工的HourlyRate是更高的。

2. 分组分析

分组分析有两种不同的含义：

将数据进行分组后再进行分析比较；

根据数据的特征将数据分组，使组内成员尽可能靠拢，组间成员尽可能远离。

如果指令了每一条数据的分组，当未知分组的数据出现的时候，更精确的判断它属于哪个分组的过程叫做分类。
如果不知道分组，仅让数据尽可能物以类聚的过程交过聚类。
分类和聚类是机器学习和数据建模的主要内容。

2.1 数据分组分析

分组分析一般要结合其他分析方法进行配合使用，所以更像是一种辅助手段。
分组分析中最常用的手段是钻取，钻取是改变维的层次，变换分析的粒度。
根据钻取方向的不同，可以分为向上钻取和向下钻取：

向下钻取是展开数据，查看数据细节的过程。

向上钻取是汇总分组数据的过程。

离散属性的分组是比较容易的，而连续属性的分组在分组前要进行离散化。
在将连续属性离散化之前，需要先看下数据分布是不是有明显的的可以区分的标志：

比如将数据从小到大排列后，有没有明显的分隔或拐点，如果有则可以直接使用。

如果这个分隔是两个数据之间的差，可以称为一阶差分。

如果是拐点，则可以称为二阶差分。

由于连续属性的分组要尽可能满足相同的分组比较聚拢，不同的分组尽量离散，所以也可以采用聚类的方式区分：

比如可以用k_means方法进行指定分组数目的连续属性分组。

如果考虑标注，也可以结合不纯度(Gini)的检验指标基尼系数来进行连续数据的离散化分组。

基尼系数定义： $Gini(D) = 1 - \sum(\frac{{C_k}^2}{D})^2$

D 代表标注，比如上面案例中的HourlyRate。

C 代表要比较和对比的属性，比如上面案例中的EducationField。

>>>import os
>>>import pandas as pd
>>>import matplotlib.pyplot as plt
>>>import seaborn as sns

>>>df = pd.read_csv(os.path.join(".","data","WA_Fn-UseC_-HR-Employee-Attrition.csv"))
>>>sns.barplot(x="HourlyRate",y="Gender",hue="EducationField",data=df)
>>>plt.show()

从上图中，我们可以看出很多结论，比如女性不同的EducationField的HourlyRate差距是比较大的，而男性则相对比较平衡。

>>>import os
>>>import pandas as pd
>>>import matplotlib.pyplot as plt
>>>import seaborn as sns

>>>df = pd.read_csv(os.path.join(".","data","WA_Fn-UseC_-HR-Employee-Attrition.csv"))
>>>hr = df.HourlyRate

>>>sns.barplot(list(range(len(hr))),hr.sort_values())
>>>plt.show()

也可以通过观察数据进行分组。

大师兄的数据分析学习笔记(七）：探索性数据分析（六）

五、复合分析的实现

1. 交叉分析

1.1 假设检验方式

1.2 透视表方式

2. 分组分析

2.1 数据分组分析

猜你喜欢

热点阅读