scrapy学习

2020-06-19  本文已影响0人  青元子cyan

1,建立工程

打开cmd,输入:

scrapy startproject python123demo

其中,spyderdemo是项目名称。
而后,工程生成一个目录,名为python123demo,该目录下有两个文件:一个文件夹名为python123demo,一个文件名为:scrapy.cfg。其中scrapy.cfg为部署Scrapy爬虫的配置文件。即将该爬虫放在特定服务器上,并在服务器上配置好接口。本机使用时,无需修改此文件。

其中
init .py →初始化脚本,不需要编写
items .py→Items代码模板(继承类),几乎不需要编写
middlewares.py → Middlewares代码模板(继承类) 有时需要编写
pipelines. py →Pipelines代码模板(继承类)
settings. py → Scrap爬虫的配置文件。优化爬虫功能时需要修改
spiders目录,→ Spiders代码模板目录(继承类) ,存放python123demo这个工程中建立的爬虫

  • spiders/ Spiders代码模板目录(继承类)
    - init .py 初始文件,无需修改
    - peache 缓存目录,无需修改

2,建立爬虫

继续在cmd工程目录下输入:

scrapy genspider demo python123.io

作用:生成一个名为demo的爬虫

3,配置该爬虫

具体而言,就是修改demo.py这个文件如下:

import scrapy

class DemoSpider(scrapy.Spider):
    name = 'demo'
    # allowed_domains = ['python123.io']
    start_urls = ['http://python123.io/ws/demo.html']

    def parse(self, response):
        fname = response.url.split('/')[-1]
        with open(fname, 'wb') as f:
            f.write(response.body)
        self.log('Saved file %s.' % fname)

4,运行爬虫,获取网页

打开cmd,在工程目录下执行

scrapy crawl demo
Scrapy爬虫的使用步骤:

1,创建一个工程和Spider模板
2,编写Spider
3,编写ItemPipeline
4,优化配置策略

Scrapy爬虫的数据类型

1,Request类
Request对象表示一个HTTP请求。由Spider生成,由Downloader执行

2,Response类
Response对象表示一个HTTP相应。由Downloader生成,由Spider处理

3,Item类
Item对象表示一个从HTML页面中提取的信息内容。
由 Spider生成,由 Item Pipeline处理。
Item类似字典类型,可以按照字典类型操作。

CSS Selector的基本使用

<HTML>.css('a::attr(href)').extract()
a为标签名称,href为标签属性

上一篇 下一篇

猜你喜欢

热点阅读