程序员python 高级码农成才之路

Scrapy-Shell的用法以及request和respons

2020-12-19  本文已影响0人  幼姿沫

①  Shell方法查找网页数据

shell介绍

可方便的提供我们做一些测试提取数据  如果想要提取网络数据网页可以在任意地方均可执行

如果想要在具体文件或者项目配置信息执行,先进入命令中在执行scrapy  shell 命令   scrapy shell  url

shell

使用爬虫提取数据的时候用xpath或者bs4和re正则表达式提取数据  在scrapy框架中用shell 来方便测试提取数据 可以像爬虫中的parse方法一样

以下两种方法均可找到网页中的具体内容数据

response.text response.body

②用bs4来查找网页数据

from bs4 import  BeautifulSoup

soup=BeautifulSoup(response.text,'lxml')

title_tag=soup.find('h1',attrs={'class':'ph'})

title_tag=soup.find('h1',attrs={'class':'ph'})

③request和response的区别

request对象在我们写爬虫爬取一页数据的时候来请求网址

参数:

url网址  

callback  回调函数

method  请求方法

headers 请求头

meta  传递数据

encoding 编码

dot_filter   不由调度器过滤

errback 错误时执行的函数

response 响应对象用来提取数据

属性为:

meta  多个请求之间的数据连接

encoding  编码解码格式

text  字符串

body  字节码格式

xpath  提取数据

css  css选择器

发送request请求 

scrapy.Request(url)  一般为Get请求 

当要请求Post方法的时候用request的子类FormRequest表单请求

一般存储用户名密码用来登录

如果想要在一开始的时候后使用Post请求就必须在爬虫类中重写start_request(self)

并且不再调用start_url中的url


上一篇 下一篇

猜你喜欢

热点阅读