网页读取

2018-06-07 本文已影响4人董八七

如果用节点，用rvest::read_html(url) %>% html_nodes(".article_title_cn") %>% html_text，主要还是用正则表达式提取有效信息。
如果只读取源代码，用readLines，当网页没有很好的结构时，才用这个方法。