大师兄的数据分析学习笔记(七):探索性数据分析(六)

2022-05-04  本文已影响0人  superkmi

大师兄的数据分析学习笔记(六):探索性数据分析(五)
大师兄的数据分析学习笔记(八):探索性数据分析(七)

五、复合分析的实现

1. 交叉分析
- Age Education EducationField Gender HourlyRate JobInvolvement JobLevel JobSatisfaction
1 41 2 Life Sciences Female 94 3 2 4
2 49 1 Life Sciences Male 61 2 2 2
3 37 2 Other Male 92 2 1 3
4 33 4 Life Sciences Female 56 3 1 3
5 27 1 Medical Male 40 3 1 2
6 32 2 Life Sciences Male 79 3 1 4
7 ... ... ... ... ... ... ... ...
  • 从列的角度分析:分析每个属性的特点并进行归纳和总结。
  • 从行的角度分析:从案例的角度进行分析,当数据有标注时,以标注为关注点,案例越多,越接近数据整体的质量。
  • 任意取两列,使用假设检验的方式判断他们之间是否有联系。
  • 也可以以一个或多个属性为行,另一个或多个属性为列,做成透视表,用来更直观地分析两个属性或几个属性之间的关系。
1.1 假设检验方式
>>>import os
>>>import scipy.stats as ss
>>>import numpy as np
>>>import pandas as pd
>>>import matplotlib.pyplot as plt
>>>import seaborn as sns

>>>df = pd.read_csv(os.path.join(".","data","WA_Fn-UseC_-HR-Employee-Attrition.csv"))
>>>dp_indices = df.groupby("EducationField").indices
>>>dp_keys = list(dp_indices.keys())
>>>n = len(dp_keys)
>>>dp_t_mat = np.zeros([n,n])

>>>for i in range(n):
>>>    for j in range(n):
>>>        p_value = >>>ss.ttest_ind(df[df.EducationField==dp_keys[i]].HourlyRate.values,df[df.EducationField==dp_keys[j]].HourlyRate.values)[1]
>>>        dp_t_mat[i][j] = p_value

>>>sns.heatmap(dp_t_mat,xticklabels=dp_keys,yticklabels=dp_keys)
>>>plt.show()
1.2 透视表方式
>>>import os
>>>import numpy as np
>>>import pandas as pd
>>>import matplotlib.pyplot as plt
>>>import seaborn as sns

>>>df = pd.read_csv(os.path.join(".","data","WA_Fn-UseC_-HR-Employee-Attrition.csv"))
>>>piv_tb = pd.pivot_table(df,values="HourlyRate",index=["EducationField"],columns=["Gender"],aggfunc=np.mean)
>>>sns.heatmap(piv_tb)
>>>plt.show()
2. 分组分析
  1. 将数据进行分组后再进行分析比较;
  2. 根据数据的特征将数据分组,使组内成员尽可能靠拢,组间成员尽可能远离。
2.1 数据分组分析
  • 向下钻取是展开数据,查看数据细节的过程。
  • 向上钻取是汇总分组数据的过程。
  • 比如将数据从小到大排列后,有没有明显的分隔或拐点,如果有则可以直接使用。
  • 如果这个分隔是两个数据之间的差,可以称为一阶差分
  • 如果是拐点,则可以称为二阶差分
  • 比如可以用k_means方法进行指定分组数目的连续属性分组。
  • 基尼系数定义:Gini(D) = 1 - \sum(\frac{{C_k}^2}{D})^2
  • D 代表标注,比如上面案例中的HourlyRate。
  • C 代表要比较和对比的属性,比如上面案例中的EducationField。
>>>import os
>>>import pandas as pd
>>>import matplotlib.pyplot as plt
>>>import seaborn as sns

>>>df = pd.read_csv(os.path.join(".","data","WA_Fn-UseC_-HR-Employee-Attrition.csv"))
>>>sns.barplot(x="HourlyRate",y="Gender",hue="EducationField",data=df)
>>>plt.show()
>>>import os
>>>import pandas as pd
>>>import matplotlib.pyplot as plt
>>>import seaborn as sns

>>>df = pd.read_csv(os.path.join(".","data","WA_Fn-UseC_-HR-Employee-Attrition.csv"))
>>>hr = df.HourlyRate

>>>sns.barplot(list(range(len(hr))),hr.sort_values())
>>>plt.show()
上一篇 下一篇

猜你喜欢

热点阅读