scrapy框架

2020-06-13 本文已影响0人 python小哥哥2020

大家好，我是天空之城，今天给大家带来，运用scrapy爬虫框架高效爬取数据和存储数据。
Scrapy的用法
0.创建Scrapy项目
1定义item(数据)
2创建和编写spiders文件
3修改settings.py文件
4运行Scrapy爬虫

在这里插入图片描述

写代码：
明确目标
分析过程
代码实现（逐步）

以爬取豆瓣图书为演示https://book.douban.com/top250
豆瓣Top250图书一共有10页，每页有25本书籍。我们的目标是：先只爬取前三页书籍的信息，也就是爬取前75本书籍的信息（包含书名、出版信息和书籍评分）。
网址规律，
第2页的网址:
https:/ /book.douban.com/ top250?start=25
第3页的网址:
https:/ /book.douban.com/ top250?start=50

右击检查，你就会发现，其实每一页的25本书籍信息都分别藏在了一个<table width="100%">标签里。不过这个标签没有class属性，也没有id属性，不方便我们提取信息。

如果你想在自己本地的电脑使用Scrapy，需要提前安装好它。（安装方法：Windows：在终端输入命令：pip install scrapy；mac：在终端输入命令：pip3 install scrapy，按下enter键）

新建一个Python文件夹里的Pythoncode子文件夹。
然后，再输入一行能帮我们创建Scrapy项目的命令：scrapy startproject douban，douban就是Scrapy项目的名字。按下enter键，一个Scrapy项目就创建成功了。

scrapy框架

猜你喜欢

热点阅读