R for statisticsR data manipulateIMP research

爬虫--R语言--基础知识

2021-11-20  本文已影响0人  小贝学生信

爬虫--R语言--代码实战(以豆瓣网站为例) - 简书 (jianshu.com)
爬虫--R语言--基础知识 - 简书 (jianshu.com)

之前有断断续续学过基于R语言的爬虫,这次再从头梳理一遍流程与要点,供以后自己需要用到的时候参考。

1、html基础与xpath语法

1.1 html基础

1.2 xpath语法

2、xpath工具推荐

2.1 浏览器自带的定位功能

2.2 google插件之XPath Helper

2.3 google插件之SelectorGadget

3、R语言爬虫流程【重点】

一开始学习R语言爬虫时,直接xml2::read_html()对提交的网址进行解析,但经常会出现提交正确的xpath路径,但是没有提取到节点内容的尴尬结果{xml_nodeset (0)}
后来了解到针对动态网页的selenium爬取方法,尝试了一下果然可以得到预期的结果。而且我觉得动静态网页通吃,因此以后的R语言爬虫都采用下述的流程来操作。

前期准备:selenium相关配置(window) ⭐

参考笔记:https://zhuanlan.zhihu.com/p/24772389

step1:安装Java
step2:chrome浏览器相关
step3:下载selenium-server-standalone.jar

最后如果调用下面命令,出现如下图的结果说明selenium相关环境都配置好了

java -Dwebdriver.chrome.driver="C:\Program Files\Google\Chrome\Application\chromedriver.exe" -jar "C:\Program Files\Google\Chrome\Application\selenium-server-standalone-3.141.59.jar"

将会在下一节记录基于R语言爬虫的代码实操练习~

上一篇 下一篇

猜你喜欢

热点阅读