(八) Shell

2019-05-04 本文已影响0人 iamlightsmile

Scrapy终端是一个交互终端，供您在未启动spider的情况下尝试及调试您的爬取代码。其本意是用来测试提取数据的代码，不过您可以将其作为正常的Python终端，在上面测试任何的Python代码。

该终端是用来测试XPath或CSS表达式，查看他们的工作方式及从爬取的网页中提取的数据。在编写您的spider时，该终端提供了交互性测试您的表达式代码的功能，免去了每次修改后运行spider的麻烦。

一旦熟悉了Scrapy终端后，您会发现其在开发和调试spider时发挥的巨大作用。

启动终端

您可以使用 shell 来启动Scrapy终端:

scrapy shell <url>

<url> 是您要爬取的网页的地址。

使用终端

Scrapy终端仅仅是一个普通的Python终端(或 IPython )。其提供了一些额外的快捷方式。

可用的快捷命令(shortcut)

shelp() - 打印可用对象及快捷命令的帮助列表

fetch(request_or_url) - 根据给定的请求(request)或URL获取一个新的response，并更新相关的对象

view(response) - 在本机的浏览器打开给定的response。其会在response的body中添加一个 <base> tag ，使得外部链接(例如图片及css)能正确显示。注意，该操作会在本地创建一个临时文件，且该文件不会被自动删除。

可用的Scrapy对象

Scrapy终端根据下载的页面会自动创建一些方便使用的对象，例如 Response 对象及 Selector 对象(对HTML及XML内容)。

这些对象有:

crawler - 当前 Crawler 对象.

spider - 处理URL的spider。对当前URL没有处理的Spider时则为一个 Spider 对象。

request - 最近获取到的页面的 Request 对象。您可以使用 replace() 修改该request。或者使用 fetch 快捷方式来获取新的request。

response - 包含最近获取到的页面的 Response 对象。

sel - 根据最近获取到的response构建的 Selector 对象。

settings - 当前的 Scrapy settings

(八) Shell

启动终端

使用终端

可用的快捷命令(shortcut)

可用的Scrapy对象

猜你喜欢

热点阅读