大数据,机器学习,人工智能大数据 爬虫Python AI Sql玩转大数据

R语言数据可视化分析案例:探索BRFSS数据

2020-03-26  本文已影响0人  拓端tecdat

原文链接:http://tecdat.cn/?p=9284

加载包

library(ggplot2) ## Warning: package 'ggplot2' was built under R version 3.5.1 library(dplyr) ## Warning: package 'dplyr' was built under R version 3.5.1 library(colorspace) library(tidyr) library(knitr) opts_chunk$set(echo = TRUE, fig.align = "center")

need-to-insert-img

载入资料

load("brfss2013.RData")

need-to-insert-img

第1部分:数据

描述如何收集样本中的观测值,以及此数据收集方法对推断范围(可概括性/因果关系)的影响。http://www.cdc.gov/brfss/,以及下面的“有关数据的更多信息”部分。

“ BRFSS是一项横断面电话调查,州卫生部门每月通过座机和蜂窝电话进行电话调查,并获得标准化问卷和CDC的技术和方法支持。在进行BRFSS座机电话调查时,访问员从一个家庭中随机选择的成年人那里收集数据。在进行BRFSS问卷的蜂窝电话版本时,访问员从成年人中收集数据,该成年人通过使用蜂窝电话参与并居住在私人住宅或大学住宅中。”

推论范围(普遍性/因果关系):

普遍性:调查数据是从50个州和美国领土收集的,这使得数据看起来足够随机样本,从而可以将其推广到整个美国人口。

因果关系:由于所有参与者均未接受指定的治疗和对照组的治疗-无法假设因果关系-只能测量相关性。

方法论,偏见和需要改进的方面的问题:通过电话调查,有可能低估了几种类型的个人:

1.没有座机或手机的个人

2.拒绝回答或参加电话调查的个人。

3.在进行调查时无法通过电话联系/无法联系到调查的个人。

采访问题的答案尚未通过验证,这意味着受访者可以通过以下方式修改其回答:

1.过度报告理想的行为和/或特征。

2.漏报不良行为。

3.夸大或歪曲某些特征,例如身高,学历或收入。

4.错误地提供关键信息(由于要求受访者记住30天内或更长时间的详细信息,因此他们的记忆可能不正确)。

5.参与的国家机构之间的面试做法和问题集可能不一致。有关更多详细信息,请访问CDC网站。

供以后参考,如果数据集包含有关每个访谈的详细信息,例如收集数据的时间和访谈的持续时间,将很有用。这些其他信息将提供有关可能参加或可能未参加调查的人员的进一步见解。

第2部分:研究问题

研究问题1:体重指数(BMI)是否与受访者自己的健康看法相关/相关?

这个问题探讨了BMI“正常”的人是否对自己的健康状况有更好的认识。虽然BMI并不是完美的健康指标,但仍被公认为健康和健康的初始指标。

使用的总变量:2

genhlth-一般健康

X_bmi5cat-将BMI分为4类(体重过轻,正常,超重,肥胖)的计算变量

————-

研究问题2:一个人的夜间睡眠时间与他们的能量水平之间是否存在相关性?性别之间有区别吗?

这是一个有趣的问题,因为经常吹嘘睡眠是维持良好总体健康的重要组成部分。研究表明,那些睡眠时间少于5小时的人甚至更容易患慢性或严重疾病。

使用的总变量:3

sleptim1-报告的睡眠时间

qlhlth2-在过去30天中,有几天被报告为“全力以赴”

性别-报告的生物性别

————-

研究问题3:总体生活满意度与受教育程度之间是否存在相关性?性别之间有什么区别吗?

这个问题将试图看看总体生活满意度和个人受教育程度之间是否存在任何关联。一些研究表明,与受教育程度较低的人相比,受教育程度较高的人较少出现婚姻问题,并且可能享有更好的健康状况。它将进一步探讨男性和女性之间是否存在任何差异。

使用的总变量:3

满意-整体生活满意度

教育-教育水平

性别-个人的生物性别

第3部分:探索性数据分析

研究问题1:体重指数(BMI)是否与受访者自身健康的看法相关/相关?

load("brfss2013.RData") dim(brfss2013)

need-to-insert-img

## [1] 491775 330

q1 <- select(brfss2013,genhlth,X_bmi5cat) %>% na.omit() dim(q1)

need-to-insert-img

## [1] 463275 2

拥有460,000多个观察值,通过表格进行观察更容易,如下所示:

prop.table(table(q1$genhlth,q1$X_bmi5cat),2)

need-to-insert-img

## ## Underweight Normal weight Overweight Obese ## Excellent 0.19987805 0.26019496 0.17373887 0.07933813 ## Very good 0.26402439 0.35069868 0.35401238 0.26824837 ## Good 0.26146341 0.24667514 0.30698451 0.37088006 ## Fair 0.15829268 0.09751640 0.11943759 0.19913468 ## Poor 0.11634146 0.04491484 0.04582665 0.08239876

表中 有大量的数据。

g1 <- ggplot(q1) + aes(x=X_bmi5cat,fill=genhlth) + geom_bar(position = "fill") g1

need-to-insert-img

need-to-insert-img

每列代表4种BMI类别(体重过轻,正常,超重,肥胖)和描述自己健康状况的受访者比例。

need-to-insert-img

可以得出结论,在一定程度上,对这一问题的回答是“是”。个体的BMI与他或她自己对健康的看法之间似乎存在关联。

研究问题2:一个人的夜间睡眠时间与他们的能量水平之间是否存在相关性?性别之间有区别吗?

## qlhlth2 sex sleptim1 ## Min. : 0.00 Male :162 Min. : 2.000 ## 1st Qu.: 2.00 Female:287 1st Qu.: 6.000 ## Median :15.00 Median : 7.000 ## Mean :15.56 Mean : 7.013 ## 3rd Qu.:28.00 3rd Qu.: 8.000 ## Max. :30.00 Max. :12.000

## Warning: Removed 12 rows containing non-finite values (stat_smooth).

## Warning: Removed 12 rows containing missing values (geom_point).

need-to-insert-img

睡眠时间和充满能量的天数之间似乎总体上呈正相关。女性的相关性似乎比男性略强,因为男性的数据分布更广泛。

++++++++++++++++++++++++

研究问题3:总体生活满意度与受教育程度之间是否存在相关性?性别之间有什么区别吗?

## # A tibble: 4 x 2 ## lsatisfy count ## ## 1 Very satisfied 5378 ## 2 Satisfied 5506 ## 3 Dissatisfied 598 ## 4 Very dissatisfied 161

q3 %>% group_by(educa) %>% summarise(count=n())

need-to-insert-img

## # A tibble: 6 x 2 ## educa count ## ## 1 Never attended school or only kindergarten 10 ## 2 Grades 1 through 8 (Elementary) 496 ## 3 Grades 9 though 11 (Some high school) 1078 ## 4 Grade 12 or GED (High school graduate) 3708 ## 5 College 1 year to 3 years (Some college or technical school) 3055 ## 6 College 4 years or more (College graduate) 3296

q3 %>% group_by(sex) %>% summarise(count=n())

need-to-insert-img

## # A tibble: 2 x 2 ## sex count ## ## 1 Male 4078 ## 2 Female 7565

need-to-insert-img

男性和女性的教育水平和总体生活满意度之间似乎总体上呈正相关。至少完成了高中(或同等学历)的人的满意度似乎更高。数据中还存在某些异常值,其中一些响应者在没有受过教育的情况下会“满意”或“非常满意”。由于大多数美国人口至少已从高中毕业,因此该数据似乎准确地代表了受访者的分布。

上一篇下一篇

猜你喜欢

热点阅读