Scrapy-Shell的用法以及request和respons

2020-12-19 本文已影响0人幼姿沫

① Shell方法查找网页数据

shell介绍

可方便的提供我们做一些测试提取数据如果想要提取网络数据网页可以在任意地方均可执行

如果想要在具体文件或者项目配置信息执行，先进入命令中在执行scrapy shell 命令 scrapy shell url

shell

使用爬虫提取数据的时候用xpath或者bs4和re正则表达式提取数据在scrapy框架中用shell 来方便测试提取数据可以像爬虫中的parse方法一样

以下两种方法均可找到网页中的具体内容数据

response.text

response.body

②用bs4来查找网页数据

from bs4 import BeautifulSoup

soup=BeautifulSoup(response.text,'lxml')

title_tag=soup.find('h1',attrs={'class':'ph'})

title_tag=soup.find('h1',attrs={'class':'ph'})

③request和response的区别

request对象在我们写爬虫爬取一页数据的时候来请求网址

参数：

url网址

callback 回调函数

method 请求方法

headers 请求头

meta 传递数据

encoding 编码

dot_filter 不由调度器过滤

errback 错误时执行的函数

response 响应对象用来提取数据

属性为：

meta 多个请求之间的数据连接

encoding 编码解码格式

text 字符串

body 字节码格式

xpath 提取数据

css css选择器

发送request请求

scrapy.Request(url) 一般为Get请求

当要请求Post方法的时候用request的子类FormRequest表单请求

一般存储用户名密码用来登录

如果想要在一开始的时候后使用Post请求就必须在爬虫类中重写start_request(self)

并且不再调用start_url中的url

Scrapy-Shell的用法以及request和respons

① Shell方法查找网页数据

以下两种方法均可找到网页中的具体内容数据

③request和response的区别

猜你喜欢

热点阅读