爬虫框架scrapy篇二——创建一个scrapy项目

2021-01-27 本文已影响0人一只酸柠檬精

1、创建scrapy项目

在开始爬取之前，我们首先要创建一个scrapy项目，在命令行输入以下命令即可创建

scrapy startproject xxx

xxx是你要新建的项目名称
项目名称必须以字母开头，并且仅包含字母、数字和下划线

运行结果：

image.png

创建项目成功后，会看到以下的文件结构：

image.png

文件作用：

project_name/
   scrapy.cfg：
   project_name/
       __init__.py
       items.py
       pipelines.py
       settings.py
       spiders/
           __init__.py

scrapy.cfg   项目的总配置文件，通常无须修改。。（真正爬虫相关的配置信息在settings.py文件中）
items.py     设置数据存储模板，用于结构化数据，通常就是定义 N 个属性，该类需要由开发者来定义。
pipelines    项目的管道文件，它负责处理爬取到的信息。例如存入数据库或者生成xml文件等。该文件需要由开发者编写。
settings.py  配置文件，如：递归的层数、并发数，延迟下载等
spiders      爬虫目录，如：创建文件，编写爬虫解析规则

2.创建爬虫应用程序

cd project_name（进入项目目录,最外层的project_name）
scrapy genspider 应用名称 爬取网页的起始url 
（例：scrapy genspider movie80 www.80s.tw/movie/list）

创建爬虫应用程序后，会在项目的spiders中生成一个应用名称的py爬虫文件，如下图：

image.png

文件源码如下（为方便查看，修改了部分内容）：

import scrapy


class Movie80Spider(scrapy.Spider):
    name = 'movie80'    # 应用名称
    allowed_domains = ['80s.tw']  # 允许爬取的域名，需要手动修改（如果遇到非该域名的url则爬取不到数据，但是对于start_urls里的起始爬取页面，它是不会过滤的）
    start_urls = ['https://www.80s.tw/movie/list/']  # 起始爬取的url

    # 访问起始URL并获取结果后的回调函数，该函数的response参数就是向起始的url发送请求后，获取的响应对象.该函数返回值必须为可迭代对象或者NUll
    def parse(self, response):
        print("爬虫开始运行,结果如下————")
        print(response)  # 获取字符串类型的响应内容

注:创建爬虫应用程序时，填写爬取网页的起始url一定不要带https:// 或者http://，不然会出现以下错误

image.png

3、修改settings类

修改内容及其结果如下：

 # 忽略robots协议
ROBOTSTXT_OBEY = False

# 伪装请求头
DEFAULT_REQUEST_HEADERS = {
  "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36",
  "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8"
}

4、执行爬虫程序

scrapy crawl  应用名称

成功则如下图

image.png

5、遇到的一些错误

5.1、运行爬虫时报错 Unknow command：crawl

注：执行爬虫程序时要先将目录切换到我们创建的最外层的scrapy项目目录下，
否则就会出现以下错误：

image.png

5.2、运行爬虫时报错 SyntaxError: (unicode error) 'utf-8' codec can't decode byte 0xc5 in position 0: invalid continuation byte

问题：

image.png

解决办法：
在应用程序的爬虫文件的第一行加上以下代码就ok：

# -*- coding: utf-8 -*-

image.png

5.3、运行爬虫时数据无异常，但报错 robotstxt_body = robotstxt_body.decode('utf-8')

问题：

image.png

这是由于遵守了 Robot协议造成的，所以我们需要拒绝遵守 Robot协议

解决办法：
在settings.py中加入以下代码：

ROBOTSTXT_OBEY = False

image.png

传送门
爬虫框架scrapy篇一——scrapy的架构
https://www.jianshu.com/p/39b326f9cad6
爬虫框架scrapy篇三——数据的处理与持久化以及遇到的一些问题
https://www.jianshu.com/p/8824623b551c
爬虫框架scrapy篇四——数据入库（mongodb，mysql）
https://www.jianshu.com/p/573ca74c2277
爬虫框架scrapy篇五——其他操作：post翻页请求
https://www.jianshu.com/p/bca689b4ebbd

爬虫框架scrapy篇二——创建一个scrapy项目

1、创建scrapy项目

2.创建爬虫应用程序

3、修改settings类

4、执行爬虫程序

5、遇到的一些错误

5.1、运行爬虫时报错 Unknow command：crawl

5.2、运行爬虫时报错 SyntaxError: (unicode error) 'utf-8' codec can't decode byte 0xc5 in position 0: invalid continuation byte

5.3、运行爬虫时数据无异常，但报错 robotstxt_body = robotstxt_body.decode('utf-8')

猜你喜欢

热点阅读