python爬虫几个步骤

2018-09-07 本文已影响20人 saman0

一 url管理器（管理没解析的url和解析过的url，主要防止循环解析）

二 url下载器（下载网页上的内容，并将内容以字符串的方式给解析器）

三 url解析器（解析字符串的内容，将url以解析过和没解析传给管理器，没解析继续循环上一步操作）

四结果显示

以上四个步骤只是简单的爬虫。如果涉及到登录验证码这些，还要正则表达式django这些等等。

上一篇下一篇

猜你喜欢

热点阅读