幸福感数据分析

2019-02-18 本文已影响6人瑾锋

相关背景：本文所用的所有数据为阿里云天池竞赛的数据，使用的数据来自中国人民大学中国调查与数据中心主持之《中国综合社会调查（CGSS）》项目。该竞赛相关信息入口为：快来一起挖掘幸福感

对以上提供者表示感谢。如对该数据感兴趣者，可直接点击上面入口自行下载。

幸福感事实是一个比较难量化，比较难描述的东西。这篇文章将通过对CGSS的调查结果的数据进行一些较浅的探索分析，发现其中一些有趣的结论。当然这个调查是在2015年做的，所有结论均是要结合历史进程来看的，请各位看官不要听风就是雨，不要拿前朝的剑斩当朝的官。

事先说明一下关于调查表的通用回复可能会有如下异常回答值：

-1 = 不适用; -2 = 不知道; -3 = 拒绝回答; -8 = 无法回答;

关于幸福感一共有五个层次，由被调查者根据自身主观感受打分。各数字代表如下：

1 = 非常不幸福; 2 = 比较不幸福;3 = 说不上幸福不幸福;4 = 比较幸福;5 = 非常幸福;

可以先看一下关于幸福感的饼图：

幸福感结果分布

我们拿到的结果当中比较幸福的占六成，非常幸福的有18%，不幸福的合计有7%左右，另外的14%就是说不上幸福不幸福的。可见在2015年~~的这一届人民还行~~，至少有78%是感觉幸福的。

而调查表其他项涉及较广，有地域、年龄、教育、房产、投资、配偶等各个方面，我们先对各项特征观察其与幸福感的皮尔森系数。

皮尔森相关系数（Pearson correlation coefficient）也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient) ，是一种线性相关系数。皮尔森相关系数是用来反映两个变量线性相关程度的统计量。相关系数用r表示，其中n为样本量，分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的绝对值越大表明相关性越强。