科研信息学

和你息息相关——国自然基金标题爬取

2019-08-26  本文已影响0人  Dayueban
image

写在前面

几乎每年的8月份,都是科研大神们比较关注的日子,因为自己年初苦心经营的基金申请结果即将揭晓。那么究竟花落谁家,其实早有定数(当然要建立在通宵达旦的码字以及契合审稿人的口味,也就是说要把我当今的研究趋势)。当然,不管各位老师以及科研工作者有没有申请上,此时,我们更应该care那些申请上的牛人都在做些什么,博采众长,海纳百川。如果你想知道,那么请跟我往下走。

目的

虽然国家自然科学基金网以及科学网等相应网站都可以查询相关的课题名称,但是如何更加快速且自如的筛选出自己想要的领域并且能够下载下来慢慢琢磨体会。这里我将采用R语言并结合科学网的基金频道,如下图所示:

image image

R语言爬取基金标题等内容

image image
rm(list = ls())
# 加载相应的包
library(rvest)
library(stringr)
site <- 'http://fund.sciencenet.cn/search?name=%E8%82%A0%E9%81%93%E8%8F%8C%E7%BE%A4&yearStart=2019&submit=list&page='
table2 <- NULL
# 下面写一个循环,为了时间关系,我只循环到第30页
for(page in 1:30){
  url0 <- paste(site, page, sep = "")
  web <- read_html(url0)
  News <- web %>% html_nodes('p.t') # 标题内容
#---获得基金标题---
  Title <- News %>% html_text() # 标题内容解析
  Title <- gsub('\n','',Title) # 去除换行符
  Title <- gsub('\\s+',' ',Title) # 去除空格
  Title
#---获得负责人信息---
  Information <- web %>% html_nodes('div.d') %>% html_text() # 负责人等相关消息解析
  Information <- gsub('\n', ' ', Information)
  Information <- gsub('\\s+', ' ', Information)
  Information
  #Author <- web %>% html_nodes('div.d  .author') %>% html_text()
#---获得申请单位---
 # Department <- web %>% html_nodes('.ico , #resultLst a') %>% html_text()
 # Department <- gsub('\n',' ',Department) # 去除换行符
 # Department <- gsub('\\s+',' ',Department) # 去除空格

#---保存为csv文件---
#组合成数据框
# dat <- data.frame(Title,Time,link1)
dat <- cbind(Title, Information)
table2 <- as.data.frame(rbind(table2, dat))
write.csv(table2,file = 'NSFC2019.csv',row.names = FALSE)
}

# 对表格进行处理
df <- cbind(table2$Title,data.frame(do.call(rbind, strsplit(as.character(table2$Information), split = " "))))
df$X1 <- NULL  # 将空值的那一列删除
# 给每一列附上列名
names(df) <- c("基金名称","负责人","申请单位","研究类型","项目批准号",
               "批准年度","金额","关键词")
write.csv(df,file = 'NSFC2019_revised.csv',row.names = F)
image

写在后面

古人有云:知己知彼,方能百战不殆。尤其是对刚进高校的青椒们,通过这种方法可以使你在了解领域内的研究方向,同时,也能拓宽自己的视野。集百家之智慧,锻造洒家之国基。

信息来源

[1] 科学网基金频道:http://fund.sciencenet.cn/

上一篇下一篇

猜你喜欢

热点阅读