python爬虫几个步骤

2018-09-07  本文已影响20人  saman0

一 url管理器(管理没解析的url和解析过的url,主要防止循环解析)

二 url下载器(下载网页上的内容,并将内容以字符串的方式给解析器)

三 url解析器 (解析字符串的内容,将url以解析过和没解析传给管理器,没解析继续循环上一步操作)

四 结果显示

以上四个步骤只是简单的爬虫。如果涉及到登录验证码这些,还要正则表达式django这些等等。

上一篇下一篇

猜你喜欢

热点阅读