python 高级码农成才之路

scrapy爬虫---爬取阳光政务平台文章和入库

2020-12-29 本文已影响0人幼姿沫

用普通爬虫实现爬取阳光政务平台首页政务的标题和链接并且对具体政务信息进行提取以下为具体字段

title （问政标题）/ href （问政链接） /author 作者名称/ author_img 作者图片 / publish_date 发布日期/ content 内容/ content_img 内容图片 /department（问政部门）

网址：http://wzzdg.sun0769.com/political/index/index

由于问政详情页面有图片和内容有的有内容无图片以下进行分析

1.网页分析：

首页分析

有内容无图片页面

有内容有图片页面分析

文件架构

2.代码截图分析

ygzw.py --------- 爬虫页面

start.py 启动爬虫页面

settings.py 配置页面

items.py 设置爬取网页的数据预设

pipelines.py 对数据进行保存文件

项目展示结果：

mongodb数据库展示

控制台输出信息展示

上一篇下一篇

猜你喜欢

热点阅读