python爬虫初体验

2018-01-08 本文已影响0人伟大的洪立

网络爬虫（Web Spider）是什么

网络爬虫也叫网络蜘蛛，即Web Spider，名字也是非常之形象。

简书-1

如果把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。

网络蜘蛛通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，一直循环下去，直到把整个网站所有的网页都抓取完为止。

如果把整个互联网就当成一个网站，那么网络蜘蛛可以用这个原理把互联网上所有的网页都抓取下来。

爬虫是用来干嘛的？？

爬虫就是从网页中爬取数据的，这些数据可以是网页代码、图片、视频、音频等等，只要是浏览器网页中可以呈现的，都可以通过爬虫程序获取。

但是有很多从网页上获取数据有很多种方法，如：迅雷，抓站工具等
为什么要用爬虫？？
爬虫可以从网上爬去大量的数据，相对与手工下载工具之类的，在需要大量数据据的时候，爬虫会更省时，提高效率。

下面是引用别人的

对于数据的采集工作，一般情况下不会是少量数据的定向采集，通常会是大量网站大量数据的集中采集，然后对于这些大量数据进行筛选分析，如~XX公司要开发一套新闻网站[web项目]，需要大量的新闻素材作为网站的基础数据，现要对1000个指定的新闻网站中的30天的数据进行获取。通常情况下，如果是针对性的大量数据的采集工作，我们会使用爬虫程序进行自动化操作。

爬虫分类

通用爬虫
1. 搜索引擎常用的信息数据采集手段，遵循数据采集的robot协议{该协议是约定的一种规范，约定了哪些数据可以让搜索引擎的爬虫采集！}
2. 通用爬虫通常是很多网站比较欢迎的一种操作手段，通用爬虫可以引入新的客户流量，用户在访问当前网站时，除了直接通过url地址访问，还可以通过搜索引擎导向访问当前网站！
3. 通用爬虫存在一定的缺陷：通用爬虫~一般是提供公共的数据给所有的用户使用的，没有针对性、对于搜索数据的关键词不会有语义化定义、数据的采集比较分散
聚焦爬虫

程序开发人员针对具体的需求，针对性的开发获取数据的程序，通过程序的自动化操作，完成人工筛选过程~[自定义采集方式、自定义筛选条件、自定义过滤措施->私人订制！]，不需要遵循robot协议！可以获取到更加准确的数据！

第一个爬虫程序

环境：python2.7
# -*- coding: utf-8 -*-
# python2中使用的是ACSII编码，对中文支持不太好，所以一般在程序第一行加一行注释说明使用的什么编码格式
# 引入需要的模块
import urllib2

# 爬求指定网页
response = urllib2.urlopen("https://www.taobao.com")

print(response.read())

python爬虫初体验

网络爬虫（Web Spider）是什么

爬虫是用来干嘛的？？

爬虫分类

猜你喜欢

热点阅读