和你息息相关——国自然基金标题爬取

2019-08-26 本文已影响0人 Dayueban

image

写在前面

几乎每年的8月份，都是科研大神们比较关注的日子，因为自己年初苦心经营的基金申请结果即将揭晓。那么究竟花落谁家，其实早有定数（当然要建立在通宵达旦的码字以及契合审稿人的口味，也就是说要把我当今的研究趋势）。当然，不管各位老师以及科研工作者有没有申请上，此时，我们更应该care那些申请上的牛人都在做些什么，博采众长，海纳百川。如果你想知道，那么请跟我往下走。

目的

虽然国家自然科学基金网以及科学网等相应网站都可以查询相关的课题名称，但是如何更加快速且自如的筛选出自己想要的领域并且能够下载下来慢慢琢磨体会。这里我将采用R语言并结合科学网的基金频道，如下图所示：

image

当我用“肠道菌群”作为关键词去进行搜索后，结果共得到1098项结果

image

当点击第一页结果，我们发现网址为“http://fund.sciencenet.cn/search?name=%E8%82%A0%E9%81%93%E8%8F%8C%E7%BE%A4&yearStart=2019&submit=list&page=1”，当点击第二页结果时候，我们发现网址变为“http://fund.sciencenet.cn/search?name=%E8%82%A0%E9%81%93%E8%8F%8C%E7%BE%A4&yearStart=2019&submit=list&page=2”，我们发现只有page=后面的数字发生了变化，那么这个用R语言取爬取每一页的内容就比较方便的了。

R语言爬取基金标题等内容

这里主要采用的是R包rvest（主要用于爬取内容）以及stringr（主要对爬取后的内容进行相应的整理）。
对于网页爬虫，则需要对网页的html格式有所了解（话虽如此，我也是一个小白，很白的那种）。当然只要能实现我的目的就行了（建议还是可以去查找相关的资料学习一下，毕竟技多不压身嘛）。言归正传，我用的Chrome浏览器，所以我把鼠标放在相应的条目上，比如“1.基于肠道菌群介导的苍术炮制机理研究”，鼠标右键点击检查，就会出现如下的网页html形式：

image

接下来我们想获得基金负责人等相关消息，那么如下图所示：

image

那么究竟在R里面怎么操作呢，代码如下：

rm(list = ls())
# 加载相应的包
library(rvest)
library(stringr)
site <- 'http://fund.sciencenet.cn/search?name=%E8%82%A0%E9%81%93%E8%8F%8C%E7%BE%A4&yearStart=2019&submit=list&page='
table2 <- NULL
# 下面写一个循环，为了时间关系，我只循环到第30页
for(page in 1:30){
  url0 <- paste(site, page, sep = "")
  web <- read_html(url0)
  News <- web %>% html_nodes('p.t') # 标题内容
#---获得基金标题---
  Title <- News %>% html_text() # 标题内容解析
  Title <- gsub('\n','',Title) # 去除换行符
  Title <- gsub('\\s+',' ',Title) # 去除空格
  Title
#---获得负责人信息---
  Information <- web %>% html_nodes('div.d') %>% html_text() # 负责人等相关消息解析
  Information <- gsub('\n', ' ', Information)
  Information <- gsub('\\s+', ' ', Information)
  Information
  #Author <- web %>% html_nodes('div.d  .author') %>% html_text()
#---获得申请单位---
 # Department <- web %>% html_nodes('.ico , #resultLst a') %>% html_text()
 # Department <- gsub('\n',' ',Department) # 去除换行符
 # Department <- gsub('\\s+',' ',Department) # 去除空格

#---保存为csv文件---
#组合成数据框
# dat <- data.frame(Title,Time,link1)
dat <- cbind(Title, Information)
table2 <- as.data.frame(rbind(table2, dat))
write.csv(table2,file = 'NSFC2019.csv',row.names = FALSE)
}

# 对表格进行处理
df <- cbind(table2$Title,data.frame(do.call(rbind, strsplit(as.character(table2$Information), split = " "))))
df$X1 <- NULL  # 将空值的那一列删除
# 给每一列附上列名
names(df) <- c("基金名称","负责人","申请单位","研究类型","项目批准号",
               "批准年度","金额","关键词")
write.csv(df,file = 'NSFC2019_revised.csv',row.names = F)

最终得到的结果如下表所示：

image

写在后面

古人有云：知己知彼，方能百战不殆。尤其是对刚进高校的青椒们，通过这种方法可以使你在了解领域内的研究方向，同时，也能拓宽自己的视野。集百家之智慧，锻造洒家之国基。

信息来源

[1] 科学网基金频道：http://fund.sciencenet.cn/

和你息息相关——国自然基金标题爬取

写在前面

目的

R语言爬取基金标题等内容

写在后面

信息来源

猜你喜欢

热点阅读