Python三期爬虫作业python机器学习爬虫数据分析技术帖

Red Wine——红葡萄酒各指标相关性分析

2018-07-23  本文已影响72人  我叫钱小钱

特别声明:本文仅兴趣交流,感兴趣的水友也可以在下面留言,转载请联系作者。

          {'fixed acidity': '固定酸',
           'volatile acidity': '挥发性酸',
           'citric acid': '柠檬酸',
           'residual sugar': '残留糖分',
           'chlorides': '氯化物',
           'free sulfur dioxide': '游离二氧化硫',
           'total sulfur dioxide': '总二氧化硫',
           'density': '浓厚度',
           'pH': '氢离子浓度',
           'sulphates': '硫酸盐',
           'alcohol': '酒精度',
           'quality': '质量'}  
# 皮尔森相关系数 前提是要数据正态分布
# abs(r) < 0.3 不相关
# 0 <= abs(r) <= 0.3 低相关
# 0.3 < abs(r) <= 0.8 中相关
# 0.8 < abs(r) <= 1 高相关
hq_data_corr = hq_data.corr(method = 'pearson', min_periods = 1)

mask = np.zeros_like(hq_data_corr, dtype=np.bool)
mask[np.triu_indices_from(mask)] = True

sns.heatmap(hq_data_corr, 
            cmap= 'RdYlGn_r', 
            linewidths = 0.05, 
            mask = mask,
            alpha = 0.95,
            annot = True,
            center=0,
            fmt = '.2f',
            vmin = -1,
            vmax = 1)

其中大红色为正相关系数,绿色为负相关性系数,颜色越深表面相关性越高


以各等级红酒分类,并相关性图例展示

sns.pairplot(hq_data
             ,vars = temp_cols
             ,kind="reg" # 回归线
             ,diag_kind="kde" # 对角分布 
             ,hue="quality" 
             ,palette='mako',
            )

可挖掘的信息还有很多有待大家慢慢挖掘,如果喜欢请点赞关注,谢谢支持~!

上一篇 下一篇

猜你喜欢

热点阅读