初识爬虫

2017-11-24 本文已影响0人我的小将军

爬虫根据使用场景分为通用爬虫和聚焦爬虫两种形式。

通用爬虫的主要目的是将互联网上的网页下载到本地，然后放到本地服务器中形成备份，再对这些网页做相关处理，最后提供一个用户检索接口。

通用爬虫的抓取流程

1.首先选取一部分已有的URL，把这些URL放到待爬取队列；

2.从待爬取队列里取出URL，解析DNS得到主机IP，然后去这个IP对应的服务器里下载HTML页面，保存到搜索引擎的本地服务器，最后把这个爬过的URL放入已爬取队列；

3.分析这些网页内容，找出网页里其他的URL连接，继续执行第二步，直到爬取条件结束。

通用爬虫的缺点：

1.只能提供和文本相关的内容（如HTML、Word、PDF）等，不能提供多媒体文件（如音乐、图片、视频）和二进制文件（如程序、脚本）等。

2.提供的结果千篇一律，不能针对不同背景领域的人提供不同的搜索结果。

3.不能理解人类语义上的检索。

为了解决这个问题，聚焦爬虫出现了：

聚焦爬虫是"面向特定主题需求"的一种网络爬虫程序，聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页信息。

举小栗子

采用python爬取qq代码如

1 import urllib

3 response = urllib.urlopen("http://www.qq.com/")

5 html = response.read()

7 print(html)

爬取结果部分截图

其中urllib是python内建的网络请求库。

下期聊聊urllib，敬请期待。