scrapy爬虫---爬取阳光政务平台文章和入库
2020-12-29 本文已影响0人
幼姿沫
用普通爬虫实现爬取阳光政务平台首页政务的标题和链接 并且对具体政务信息进行提取以下为具体字段
title (问政标题)/ href (问政链接) /author 作者名称/ author_img 作者图片 / publish_date 发布日期/ content 内容/ content_img 内容图片 /department(问政部门)
网址:http://wzzdg.sun0769.com/political/index/index
由于问政详情页面有图片和内容 有的有内容无图片 以下进行分析
1.网页分析:
首页分析
![](https://img.haomeiwen.com/i22651072/54851a3b03967097.png)
有内容无图片页面
![](https://img.haomeiwen.com/i22651072/d8dea6f2304add61.png)
有内容有图片页面分析
![](https://img.haomeiwen.com/i22651072/2da71d1a23154beb.png)
文件架构
![](https://img.haomeiwen.com/i22651072/39c508771297eca0.png)
2.代码截图分析
ygzw.py --------- 爬虫页面
![](https://img.haomeiwen.com/i22651072/65263d8426dbec0b.png)
![](https://img.haomeiwen.com/i22651072/f222d47c7399fa07.png)
![](https://img.haomeiwen.com/i22651072/46c661689678c3ff.png)
start.py 启动爬虫页面
![](https://img.haomeiwen.com/i22651072/2e7bcc3c9c32a72a.png)
settings.py 配置页面
![](https://img.haomeiwen.com/i22651072/d9368a3965b68594.png)
items.py 设置爬取网页的数据预设
![](https://img.haomeiwen.com/i22651072/50abb3c18f05157c.png)
pipelines.py 对数据进行保存文件
![](https://img.haomeiwen.com/i22651072/8b3563a615e2bd7a.png)
项目展示结果:
mongodb数据库展示
![](https://img.haomeiwen.com/i22651072/b0b8d182735e3251.png)
控制台输出信息展示
![](https://img.haomeiwen.com/i22651072/b18337158ac11862.png)