爬虫简单实例
2017-11-20 本文已影响11人
丘山Ivan
开发爬虫的步骤:
1.确定目标:(以百度百科为例子)
2.分析目标(抓取数据的策略,网站会不定期升级,所以定向网站抓取也需要修改策略)
- URL 格式:页面的范围,不指定的话就会抓取不想关的数据,造成资源的浪费。
- 数据格式:分析词条的标题和简介,这两个数据标签的格式。
- 网页编码:指定网页的编码,才能正确解析
3.编写代码
4.执行爬虫数据的抓取
确定目标:
- 目标:百度Python词条相关词条网页 - 标题和简介
- 入口页:
https://baike.baidu.com/item/Python/407313
- URL格式:
- 词条页面URL:
/item/**(/item/词条名)
- 词条页面URL:
- 数据格式
- 标题:
<dd class="lemmaWgt-lemmaTitle-title"> <h1>**</h1></dd>
- 简介:
<div class="lemma-summary" label-module="lemmaSummary">**</div>
- 标题:
- 页面编码:
UTF-8