scrapy框架

2020-06-13  本文已影响0人  python小哥哥2020

大家好,我是天空之城,今天给大家带来,运用scrapy爬虫框架高效爬取数据和存储数据。
Scrapy的用法
0.创建Scrapy项目
1定 义item(数据)
2创建 和编写spiders文件
3修改settings.py文件
4运行Scrapy爬 虫


在这里插入图片描述

写代码:
明确目标
分析过程
代码实现(逐步)

以爬取豆瓣图书为演示https://book.douban.com/top250
豆瓣Top250图书一共有10页,每页有25本书籍。我们的目标是:先只爬取前三页书籍的信息,也就是爬取前75本书籍的信息(包含书名、出版信息和书籍评分)。
网址规律,
第2页的网址:
https:/ /book.douban.com/ top250?start=25
第3页的网址:
https:/ /book.douban.com/ top250?start=50

右击检查,你就会发现,其实每一页的25本书籍信息都分别藏在了一个<table width="100%">标签里。不过这个标签没有class属性,也没有id属性,不方便我们提取信息。

如果你想在自己本地的电脑使用Scrapy,需要提前安装好它。(安装方法:Windows:在终端输入命令:pip install scrapy;mac:在终端输入命令:pip3 install scrapy,按下enter键)

新建一个Python文件夹里的Pythoncode子文件夹。
然后,再输入一行能帮我们创建Scrapy项目的命令:scrapy startproject douban,douban就是Scrapy项目的名字。按下enter键,一个Scrapy项目就创建成功了。






上一篇 下一篇

猜你喜欢

热点阅读