[GBD数据库挖掘] 1.数据的下载与整合
欢迎关注R语言数据分析指南
最近有观众老爷在做GBD数据库挖掘问小编一些数据处理的问题,正好去年也写过相关的代码,既然观众老爷们有需求那么就写一些文档来介绍一下,数据代码已经上传VIP群,请自行下载
正文
数据库主页(https://www.healthdata.org/)
该数据库具体内容各位可以自行了解,下面让我们直接来到数据下载的页面进行数据下载,近期可能由于改版缘故下载数据需要进行账号注册,小编去年是不需要登录账号就能下载数据
数据下载
https://vizhub.healthdata.org/gbd-results/
数据选择
可以看到左侧有很多选项,一般小编做如下选择
GBD Estimate (Cause of death or inijury)
Measure (Deaths,DALYs,Incidence)
Metric (Number,Percent,Rate)
Cause (这个选自己需要研究的)
Location (select all)
Age (select all)
Sex (select all)
year (select all)
数据下载
执行完选择后点Download网站就会开始为我们准备数据,准备完成后克看到如下画面
批量下载数据
如果数据量较大,系统会自动帮我们切割成很多个文件,大概几十个之多;当然你也可以点击 Download 一个一个下载,如果要批量下载数据复制下载链接终端进行下载即可,由于这份数据只有两个所以为
{1..2}
;请不要执行这个输入你自己的网址即可
for i in {1..2}
do
wget "https://dl.healthdata.org/gbd-api-2019-public/2e492f56c96451fce3d1ac_files/IHME-GBD_2019_DATA-8c0d0ff4-$i.zip"
done
批量解压缩
由于下载的都为压缩文件,如果数据量较大会有几十个之多;所以还是批量处理来的痛快
for z in *.zip; do unzip "$z"; done
批量合并数据
library(tidyverse)
list.files(path = "~/liver-cancer/data",
pattern = "*.csv", full.names=TRUE) %>%
lapply(read_csv) %>% bind_rows() %>% write_csv(.,file="liver_cancer.csv",quote="none")
经过上面的步骤,我们就顺利的下载好了后续需要进行数据挖掘的文件,后面就是一系列的数据统计分析内容了,本节只是简单介绍一下数据下载仅此而已;喜欢的观众老爷欢迎分享转发