编程技术类木木需要水解密大数据

爬虫入门01(笔记)

2017-06-30  本文已影响181人  汤尧

你有没有对网络搜索引擎例如百度,Google等如何建立对其他网站的索引而感到好奇,那么你就得先了解爬虫,而这篇文章则是基于解密大数据社群曾老师所开设的爬虫入门课所写的笔记,如果你对解密大数据社群或是对爬虫感兴趣,具体链接附在文末。
本文主要介绍了一下几个方面:

爬虫的定义

爬虫是遵循一定的网络协议(http(s)、ftp、robots协议等)和规则(页面下载、结构分析、格式化等)在互联网上自动获取数据,可以在电脑上运行的程序或脚本(spider)

下面将几个网络协议分别介绍一下:

web1、web2、web3、web4是四个网页,现在有一个爬虫服务器要爬取四个网页的东西,最开始选择了种子节点,web1和web2,web1有链接指向web3和web4,我们就可以通过web1上相关其他网页的地址爬取web3和web4上的地址,从而爬取web3和web4上的内容,这就是一个爬虫爬取数据的方式。

爬虫的发展史

公认的第一个互联网爬虫是Wanderer(MIT,Matthew Gray,1993)。最开始的爬虫是检索和收集域名。慢慢地这些功能不够用了,出现了全网爬虫,其作用是通过各种方式爬取全网络的信息,将其收集起来,供用户使用,如一些搜索引擎。但随着网页的增多,搜索引擎开始比较各网页的权重,来决定各网站的顺序。这种情况下,SEO(search engine optimization,搜索引擎最佳化)出现了。SEO是一种透过了解搜寻引擎的运作规则来调整网站,以及提高目的网站在有关搜索引擎内排名的方式。

爬虫的作用及运用场景

爬虫可以从网络中获取数据,用于(商业)数据收集、分析、筛选、模型训练、大数据处理、舆情分析等。
爬虫可以运用于微博热点、实时汇率、某只关注股价的实时价格信息、历史房产交易数据、商品价格等。主要可以概括为两类:(1)实时获取数据(数据时效敏感),如交易类。(2)定时获取数据(数据时效不敏感),如数据分析。

爬虫的分类

爬虫有很多种类,以下是最常见的四种。

注:

一些开源爬虫
爬虫的运行过程
  1. 加载目标站点robot.txt。判断页面是否在允许抓取范围。
  2. 下载页面:将页面加载到内存。
  3. 格式化页面:补全标签,过滤非法字符
  4. 确定规则:正则、css选择器等
  5. 筛选数据:所需目标元素
  6. 数据清洗:筛选后元素检查与过滤
  7. 数据权重计算
  8. 数据存储

注:

爬虫的设计简介

爬虫设计的第一步要筛选数据源,原因如下:

如何筛选数据源呢:

  1. 确定需要的数据
  2. 选择有所需数据的权威站点(政府网站、官网、专业性网站)
  3. 选择有所需数据的具体网页(或一类网页)
  4. 分析网页是否友好,方便爬取

我们找到了好的数据源之后,就可以设计一个爬虫了,我们设计一个爬虫一般要经历以下步骤:

注:

本文为tiger解密大数据社群爬虫入门课第一次课的听课笔记。了解更多关注微信“泰阁志”

上一篇下一篇

猜你喜欢

热点阅读