Python的Scrapy框架抓取同城艺龙的招聘信息

2019-11-26 本文已影响0人敏儿敏儿

尝试利用scrapy框架来抓取招聘信息，选了同城艺龙的，点击同城艺龙社招
先建立好一个爬虫项目和爬虫文件，之前有写过，在此不做赘述。

一、分析网页中职位信息

image.png

选取一个职位名称，鼠标右击，点击“检查”，可以看到代码内容。
在建立的爬虫文件中，编写如下代码：

image.png

在pipelines.py文件中编写代码如下：

image.png

最后在setting.py中设置如下：

image.png

ROBOTSTXT_OBEY 默认是True，一定要设为False，不然爬取不到内容

最后执行以下代码，可以爬取的内容如下：

image.png

我在代码中利用切片功能将爬取职位数设置为爬取三个

        tr_list = response.xpath("//table[@class='jobsTable']/tr")[1:4]

如果将[1:4]改为[1:-1]，则会将当前页面的所有职位内容都爬取下来，如下图：

image.png

数了一下，发现最后一个职位没有爬取下来，莫非被网站禁止了，最多只能爬取14个职位？这个待我研究研究哈