scrapy学习

2020-06-19 本文已影响0人青元子cyan

1，建立工程

打开cmd，输入：
scrapy startproject python123demo
其中，spyderdemo是项目名称。
而后，工程生成一个目录，名为python123demo，该目录下有两个文件：一个文件夹名为python123demo，一个文件名为：scrapy.cfg。其中scrapy.cfg为部署Scrapy爬虫的配置文件。即将该爬虫放在特定服务器上，并在服务器上配置好接口。本机使用时，无需修改此文件。

python123demo
- python123demo
  - _init_.py
  - items.py
  - middlewares.py
  - pipelines.py
  - settings.py
  - spiders
    - _init_ .py
    - peache目录
- scrapy.cfg

其中
init .py →初始化脚本，不需要编写
items .py→Items代码模板（继承类），几乎不需要编写
middlewares.py → Middlewares代码模板（继承类）有时需要编写
pipelines. py →Pipelines代码模板（继承类）
settings. py → Scrap爬虫的配置文件。优化爬虫功能时需要修改
spiders目录，→ Spiders代码模板目录（继承类），存放python123demo这个工程中建立的爬虫

spiders/ Spiders代码模板目录（继承类）
- init .py 初始文件，无需修改
- peache 缓存目录，无需修改

2，建立爬虫

继续在cmd工程目录下输入：
scrapy genspider demo python123.io
作用：生成一个名为demo的爬虫

3，配置该爬虫

具体而言，就是修改demo.py这个文件如下：

import scrapy

class DemoSpider(scrapy.Spider):
    name = 'demo'
    # allowed_domains = ['python123.io']
    start_urls = ['http://python123.io/ws/demo.html']

    def parse(self, response):
        fname = response.url.split('/')[-1]
        with open(fname, 'wb') as f:
            f.write(response.body)
        self.log('Saved file %s.' % fname)

4，运行爬虫，获取网页

打开cmd，在工程目录下执行
scrapy crawl demo

Scrapy爬虫的使用步骤：

1，创建一个工程和Spider模板
2，编写Spider
3，编写ItemPipeline
4，优化配置策略

Scrapy爬虫的数据类型

1，Request类
Request对象表示一个HTTP请求。由Spider生成，由Downloader执行

.urI Request对应的请求URL地址
.method对应的请求方法， GETHPOST等
.headers字典类型风格的请求头
.body请求内容主体，字符串类型
.meta用户添加的扩展信息，在 Scrap内部模块间传递信息使用
.copy复制该请求

2，Response类
Response对象表示一个HTTP相应。由Downloader生成，由Spider处理

.urI Response对应的URL地址
.status HTTP状态码，默认是200
.headers Response对应的头部信息
.body Response对应的内容信息，字符串类型
.flags组标记
.request产生 Response类型对应的 Request对象
.copy复制该响应

3，Item类
Item对象表示一个从HTML页面中提取的信息内容。
由 Spider生成，由 Item Pipeline处理。
Item类似字典类型，可以按照字典类型操作。

CSS Selector的基本使用

<HTML>.css('a::attr(href)').extract()
a为标签名称，href为标签属性

scrapy学习

1，建立工程

2，建立爬虫

3，配置该爬虫

4，运行爬虫，获取网页

Scrapy爬虫的使用步骤：

Scrapy爬虫的数据类型

CSS Selector的基本使用

猜你喜欢

热点阅读