爬虫介绍

2019-11-23  本文已影响0人  小橙子_43db

爬虫:一段自动从互联网上抓取数据的程序

爬虫的架构:

爬虫由5个部分组成:调度器,url管理器,网页下载器,网页解析器,应用程序组成

调度器:相当于一台电脑的CPU,负责调度url管理器,网页下载器,网页解析器,让它们协调工作。

url管理器:负责管理爬去网页的url,标记已经爬取过的和未爬取的url,主要有三种实现方式:内存,数据库,缓存数据库

网页下载器:通过传入的url来下载网页,将网页转换成字符串

网页解析器:将下载的网页中有用的信息提取出来

应用程序:将获取到的数据应用到一个具体的场景中

上一篇下一篇

猜你喜欢

热点阅读