爬取curlie的实验报告

2018-05-21 本文已影响0人嚯嘻嘻哈哈

一、实验目标

All Sites

python 3.6.1

scrapy 1.5.0

建立scrapy项目，爬取curlie网站health页面的sites，爬取sites的标题、链接和摘要。所以先修改items.py文件。

爬取health页面的sites，限制爬虫爬取范围和seeds

运行爬虫后，爬取成功

爬取成功后，分析到health下子目录页面布局和health页面布局相同，所以打算递归遍历整个health目录，每个页面执行sites爬取操作。

运行爬虫后出错，百度之后，发现没有导入request

运行后爬取成功

成功之后，准备加上每条数据的目录。我们设想的是将curlie网页最上方的目录导航爬取下来

爬取后发现最后一级目录无法爬取下来，所以修改了代码

爬取后，发现目录有空格。

爬取后发现最后一级目录还是爬不下来，所以我们改换了思路，直接从当前页面URL提取目录