Python的Scrapy框架抓取同城艺龙的招聘信息
2019-11-26 本文已影响0人
敏儿敏儿
尝试利用scrapy框架来抓取招聘信息,选了同城艺龙的,点击同城艺龙社招
先建立好一个爬虫项目和爬虫文件,之前有写过,在此不做赘述。
一、分析网页中职位信息
![](https://img.haomeiwen.com/i650104/34343e0214bb5ce5.png)
选取一个职位名称,鼠标右击,点击“检查”,可以看到代码内容。
在建立的爬虫文件中,编写如下代码:
![](https://img.haomeiwen.com/i650104/fb786614a30b8b1d.png)
在pipelines.py文件中编写代码如下:
![](https://img.haomeiwen.com/i650104/fc8021f5cc37eb9f.png)
最后在setting.py中设置如下:
![](https://img.haomeiwen.com/i650104/8f4f7736143af647.png)
![](https://img.haomeiwen.com/i650104/ee91548045112065.png)
ROBOTSTXT_OBEY 默认是True,一定要设为False,不然爬取不到内容
最后执行以下代码,可以爬取的内容如下:
![](https://img.haomeiwen.com/i650104/ac7a3314e9085203.png)
我在代码中利用切片功能将爬取职位数设置为爬取三个
tr_list = response.xpath("//table[@class='jobsTable']/tr")[1:4]
如果将[1:4]
改为[1:-1]
,则会将当前页面的所有职位内容都爬取下来,如下图:
![](https://img.haomeiwen.com/i650104/6b15afeb86c2c66a.png)
![](https://img.haomeiwen.com/i650104/f75a77fb708ca579.png)
数了一下,发现最后一个职位没有爬取下来,莫非被网站禁止了,最多只能爬取14个职位?这个待我研究研究哈