爬虫

聚焦Python分布式爬虫必学框架 Scrapy 打造搜索引擎

2018-07-07  本文已影响35人  江湖十年

技术选型

image.png

网页分类

image.png

爬虫能做什么

image.png

正则表达式

image.png

深度优先 和 广度优先

image.png

网站 URL 的结构

image.png

网站 URL 链接的结构图

image.png

假设有一个树结构

image.png

对以上的树结构,深度优先 和 广度优先 遍历顺序如下

image.png

深度优先算法代码思路

image.png

广度优先算法代码思路

image.png

爬虫 URL 去重策略

image.png

字符串编码

image.png image.png image.png image.png
上一篇下一篇

猜你喜欢

热点阅读