机器学习与数据挖掘R语言:TCGA数据分析

幸福感数据分析

2019-02-18  本文已影响6人  瑾锋

相关背景:本文所用的所有数据为阿里云天池竞赛的数据,使用的数据来自中国人民大学中国调查与数据中心主持之《中国综合社会调查(CGSS)》项目。该竞赛相关信息入口为:快来一起挖掘幸福感

        对以上提供者表示感谢。如对该数据感兴趣者,可直接点击上面入口自行下载。

        幸福感事实是一个比较难量化,比较难描述的东西。这篇文章将通过对CGSS的调查结果的数据进行一些较浅的探索分析,发现其中一些有趣的结论。当然这个调查是在2015年做的,所有结论均是要结合历史进程来看的,请各位看官不要听风就是雨,不要拿前朝的剑斩当朝的官。

        事先说明一下关于调查表的通用回复可能会有如下异常回答值:

        -1 = 不适用; -2 = 不知道; -3 = 拒绝回答; -8 = 无法回答;

        关于幸福感一共有五个层次,由被调查者根据自身主观感受打分。各数字代表如下:

        1 = 非常不幸福; 2 = 比较不幸福;3 = 说不上幸福不幸福;4 = 比较幸福;5 = 非常幸福; 

        可以先看一下关于幸福感的饼图:

幸福感结果分布

        我们拿到的结果当中比较幸福的占六成,非常幸福的有18%,不幸福的合计有7%左右,另外的14%就是说不上幸福不幸福的。可见在2015年的这一届人民还行,至少有78%是感觉幸福的。

        而调查表其他项涉及较广,有地域、年龄、教育、房产、投资、配偶等各个方面,我们先对各项特征观察其与幸福感的皮尔森系数。

皮尔森相关系数(Pearson correlation coefficient)也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient) ,是一种线性相关系数。皮尔森相关系数是用来反映两个变量线性相关程度的统计量。相关系数用r表示,其中n为样本量,分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的绝对值越大表明相关性越强。

pearson相关系数较大特征(>0.1)

        我们可以看到在数值类型里面,可以看到幸福感主要与社会地位,健康,社交学习,家庭,房子相关度比较大。当然这只是一个非常初级的相关性,我们可以看一下在xgboost算法中的特征重要性图:

特征重要性图

        我们取top10重要的特征如上图。

        对幸福感影响从大到小的影响分别如下:

        1.equity:受访者对社会是否公平的判断。“我来鹅城只做三件事,公平,公平,还是他妈的公平”,张麻子看来深知这对民众幸福感的重要,可惜这鹅城的税都征到公元9102年了。

公平

        2.bmi:身体BMI指数。这个比较出乎我意料,这个特征其实是我基于先验知识引入的,没想到也比较重要,一个好的身体无疑是幸福感的基础。

        3.depression:在过去的四周中您感到心情抑郁或沮丧的频繁程度。这个就与受访者心情状态有关了。

        4.avr_area / floor_area:家庭人均住宅面积和住宅总面积。前者也是我基于先验引入的,个人空间和房子对人的幸福感影响也较大。

        5.province:省份。我是想不到这个数据分析自带地图炮。

        6.avr_income / income:每年家庭人均总收入与每年个人总收入。收入对幸福感的影响应该就像程序员头上的虱子一样明显吧。

        7.class:受访者对自身社会阶层的判断。这个其实是个比较有意思的特征。因为一个人对自身社会阶层的判断是由客观阶层和主观眼界等因素共同决定的。所以有“民可使由之,不可使知之”,这句话后面也有人把它进行各种断句,无非是“为贤者讳”罢了。

        8.height_cm:身高。

很难过

        那么根据上述的特征重要性总结一下,如何可以提高我们的幸福感呢?此处填词如梦令一首,诸君共勉:

        上网拒绝翻墙,早睡锻炼经常。 加班多赚钱,为国接盘买房。多高?多高?增高鞋垫帮忙。

        (有需要数据处理的python jupyter文件的可关注留言,与天池幸福感数据挖掘竞赛相关讨论或者问题也可直接关注后留言)

上一篇下一篇

猜你喜欢

热点阅读