scrapy爬虫---爬取阳光政务平台文章和入库
2020-12-29 本文已影响0人
幼姿沫
用普通爬虫实现爬取阳光政务平台首页政务的标题和链接 并且对具体政务信息进行提取以下为具体字段
title (问政标题)/ href (问政链接) /author 作者名称/ author_img 作者图片 / publish_date 发布日期/ content 内容/ content_img 内容图片 /department(问政部门)
网址:http://wzzdg.sun0769.com/political/index/index
由于问政详情页面有图片和内容 有的有内容无图片 以下进行分析