爬虫软件

2021-06-22 本文已影响0人誰在花里胡哨

image.png
🔥 web scraper 官方地址

安装方法：

1.首先要在 Chrome 浏览器上
2.在应用商店搜索并下载 web scraper，安装成功后重启浏览器

image.png
3.打开 开发者工具 开始使用

image.png

如何使用：

👍 知乎：零基础用爬虫爬取网页内容（详细步骤+原理）
当然，还是推荐你先看上面的这篇文章，相信会对你有所帮助。
下面是对我的简书文章进行的爬虫。
⚠️注意：有些地方的可能解释不到位，不懂的地方还是多百度咯～～

结构：
下面的步骤分解就是安装这个整体结构进行的，最后你会发现有 title,date,number3个分支，这里只用到了title,其它的可以忽略。
主要是为了方便大家理解～

image.png

步骤：
1.创建根目录文件，相当于给你这个爬虫程序命名

你会发现我的 Start URL 是简书的域名，那是因为我将从这个页面开始爬虫

image.png

image.png

2.开始定义爬虫的执行过程

点击 Add new selector 开始创建
因为我要先模拟进入 写文章 的页面，所以Type切换成 Link类型，然后从 Select 依次执行
最后保存，然后点击该行数据，进入该目录下，继续下一步操作
image.png
image.png
image.png
3.此时你要手动点击进入到 写文章 的页面，这个时候就不需要搞什么URL了，直接创建新的
这里用到的是 Element click 属性，大概意思就是：
个人理解，反正我也不是很明白，还望大家自行百度

蓝色部分属于一个父类,为其子类提供选项，因为我下一步将要在它框选的一部分内，进行 标题 的选择；
黄色部分属于定义的点击模块，程序会在执行过程中进行点击操作，不要忘了☑️ Multiple选项

*保存，点击进入该条目录下，进行上面提到的 标题 选择操作

image.png

image.png

image.png
4.我这边只取了 title 文章的标题，进行爬虫
*如果你想要爬更多的数据，你可以在 muLu-click目录下创建更多的选项

image.png

image.png
5.程序这样已经算完成了，接下来就开始执行

image.png

image.png
此时程序会自动打开一个窗口进行你的爬虫操作，然后会自动关闭

image.png

image.png

image.png

image.png

你可能会发现导出的数据是乱的，这是正常现象，你只需要对导出的数据进行排序就可以了～

image.png

上一篇下一篇

猜你喜欢

热点阅读