存档

爬虫软件

2021-06-22  本文已影响0人  誰在花里胡哨
image.png
🔥 web scraper 官方地址
安装方法:

1.首先要在 Chrome 浏览器上
2.在应用商店搜索并下载 web scraper,安装成功后重启浏览器

image.png
3.打开 开发者工具 开始使用
image.png
如何使用:

👍 知乎:零基础用爬虫爬取网页内容(详细步骤+原理)
当然,还是推荐你先看上面的这篇文章,相信会对你有所帮助。
下面是对我的 简书 文章进行的爬虫
⚠️注意:有些地方的可能解释不到位,不懂的地方还是多百度咯~~

结构:
下面的步骤分解就是安装这个整体结构进行的,最后你会发现有 title,date,number3个分支,这里只用到了title,其它的可以忽略。
主要是为了方便大家理解~

image.png

步骤:
1.创建根目录文件,相当于给你这个爬虫程序命名

image.png
image.png

2.开始定义爬虫的执行过程

蓝色部分属于一个父类,为其子类提供选项,因为我下一步将要在它框选的一部分内,进行 标题 的选择;
黄色部分属于定义的点击模块,程序会在执行过程中进行点击操作,不要忘了☑️ Multiple选项

*保存,点击进入该条目录下,进行上面提到的 标题 选择操作

image.png
image.png
image.png
4.我这边只取了 title 文章的标题,进行爬虫
*如果你想要爬更多的数据,你可以在 muLu-click目录下创建更多的选项
image.png
image.png
5.程序这样已经算完成了,接下来就开始执行
image.png
image.png
此时程序会自动打开一个窗口进行你的爬虫操作,然后会自动关闭 image.png
image.png
image.png
image.png

你可能会发现导出的数据是乱的,这是正常现象,你只需要对导出的数据进行排序就可以了~

image.png
上一篇 下一篇

猜你喜欢

热点阅读