网页读取
2018-06-07 本文已影响4人
董八七
如果用节点,用rvest::read_html(url) %>% html_nodes(".article_title_cn") %>% html_text
,主要还是用正则表达式提取有效信息。
如果只读取源代码,用readLines
,当网页没有很好的结构时,才用这个方法。
如果用节点,用rvest::read_html(url) %>% html_nodes(".article_title_cn") %>% html_text
,主要还是用正则表达式提取有效信息。
如果只读取源代码,用readLines
,当网页没有很好的结构时,才用这个方法。