scrapy笔记

2018-04-13  本文已影响0人  GaGLee

1 scrapy的运行原理

参考:
Learning Scrapy笔记(三)- Scrapy基础
Scrapy爬虫入门教程四 Spider
spider就是你用来定义对某个特定网站的爬取动作的工具,他的爬取循环类似于这样:

1、 首先要将你指定的初始URL封装成Request对象,并且要指定在网页返回该请求的内容后应该用哪个函数来处理网页的内容response。这个函数就是callback回调函数

默认情况下,会调用start_requests()函数,对start_urls中的URL分别生成一个Request对象,并且指定parse()函数作为回调函数(回调函数指的是callback变量指定的函数)

2、 在回调函数中,可以处理response变量,然后返回一个已经提取好数据的字典或者是一个Item对象,或者是Request对象(在这个Request对象中,也可以指定一个回调函数,同样地,处理完这个Request之后生成的response就会传送到回调函数中处理)

3、 在回调函数中,也可以提取网页内容,通常使用Selector(也可以使用BeautifulSoup,lxml或者其他你熟悉的机制)来生成包含了解析数据的item

4、 最后,这些从spider中返回的item通常会存入到数据库中,或者写入到文件中

2 双向爬取

参考:

  1. Scrapy Learning笔记(四)- Scrapy双向爬取
  2. 爬虫入门(5)-Scrapy使用Request访问子网页
    这篇文章中虽然是主页面、子页面,但是只有一个主页面,没看见在主页面之间继续跳转,所以其实就是单向爬取,

要点提示

from daomubiji.items import DaomubijiItem

还需要import如下:

import scrapy
from scrapy.spiders import Spider
from scrapy.selector import Selector
from scrapy.http import Request
上一篇下一篇

猜你喜欢

热点阅读