python爬虫几个步骤
2018-09-07 本文已影响20人
saman0
一 url管理器(管理没解析的url和解析过的url,主要防止循环解析)
二 url下载器(下载网页上的内容,并将内容以字符串的方式给解析器)
三 url解析器 (解析字符串的内容,将url以解析过和没解析传给管理器,没解析继续循环上一步操作)
四 结果显示
以上四个步骤只是简单的爬虫。如果涉及到登录验证码这些,还要正则表达式django这些等等。
一 url管理器(管理没解析的url和解析过的url,主要防止循环解析)
二 url下载器(下载网页上的内容,并将内容以字符串的方式给解析器)
三 url解析器 (解析字符串的内容,将url以解析过和没解析传给管理器,没解析继续循环上一步操作)
四 结果显示
以上四个步骤只是简单的爬虫。如果涉及到登录验证码这些,还要正则表达式django这些等等。