python爬虫2--scrapy shell测试

2020-01-19  本文已影响0人  牛小方

一、前言

scrapy shell也称"scrapy终端",是一个交互终端,用于未启动spider爬虫的情况下调试代码,方便对目标网页进行分析以及测试是否可以提取到页面数据

讲到提取数据就要先讲一讲scrapy内置的selector选择器了,selector选择器有如下几种常用用法:

1、xpath()或者css()

通过xpath表达式或者CSS表达式,返回该表达式所对应的所有节点的selector list列表

2、extract()或者extract_first()

extract()序列化该节点为Unicode字符串并返回list列表,而extract_first()只返回列表的第一项

3、re()

通过正则表达式对数据进行提取,返回Unicode字符串list列表

这里要特别强调一下selector选择器返回的都是列表


二、实际操作

1、启动终端

scrapy shell <url>

例如:scrapy shell https://cd.5i5j.com/zufang/

查看返回的response的响应状态,如果是200说明响应成功

有时由于网站有一些反爬的保护,导致响应状态不是200,可以通过增加user-agent参数来伪装浏览器

例如:scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36" https://cd.5i5j.com/zufang/

2、查看response信息

输入:response.headers可以看到response的包头

输入:response.headers['Set-Cookie']可以看到response某一个属性的值

输入:response.body可以看到response的包体

3、执行多行输入

当使用简单的多行输入命令后,单独Enter 键无法执行代码,需要使用shift+Enter键执行,如:

for i in response.headers:

print(i)

网上我也看到有的说用Ctrl + Enter 键执行,我不确定组合键是否和系统环境还有设置有关,可以这两个都试一下看自己是哪一个

4、response.xpath 实例

如要获取页面上房源的小区名,先利用F12自带的元素定位器,找到该元素的位置,再通过xpath表达式定位该元素

输入:response.selector.xpath('//div[@class="listX"]/p/a/text()')或者用快捷方式:response.xpath('//div[@class="listX"]/p/a/text()')获取该节点的selector list列表

目标元素为列表的第4项,可通过下标的方式获取,输入:response.xpath('//div[@class="listX"]/p/a/text()')[3]

上面获取的都是selector list列表,如果只想要得到data内容,输入:response.xpath('//div[@class="listX"]/p/a/text()').extract()

同样的,想要得到目标元素也可以通过下标的方式输入:response.xpath('//div[@class="listX"]/p/a/text()').extract()[3]

前面提到的extract_first()直接获取列表第一项,输入:response.xpath('//div[@class="listX"]/p/a/text()').extract_first()

5、退出终端模式

输入exit() 即可退出scrapy shell 终端模式

上一篇 下一篇

猜你喜欢

热点阅读