python爬虫初体验

2018-01-08  本文已影响0人  伟大的洪立

网络爬虫(Web Spider)是什么

网络爬虫也叫网络蜘蛛,即Web Spider,名字也是非常之形象。


简书-1

如果把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。

网络蜘蛛通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,一直循环下去,直到把整个网站所有的网页都抓取完为止

如果把整个互联网就当成一个网站,那么网络蜘蛛可以用这个原理把互联网上所有的网页都抓取下来。

爬虫是用来干嘛的??

爬虫就是从网页中爬取数据的,这些数据可以是网页代码、图片、视频、音频等等,只要是浏览器网页中可以呈现的,都可以通过爬虫程序获取。

但是有很多从网页上获取数据有很多种方法,如:迅雷,抓站工具等
为什么要用爬虫??
爬虫可以从网上爬去大量的数据,相对与手工下载工具之类的,在需要大量数据据的时候,爬虫会更省时,提高效率。

下面是引用别人的

对于数据的采集工作,一般情况下不会是少量数据的定向采集,通常会是大量网站大量数据的集中采集,然后对于这些大量数据进行筛选分析,如~XX公司要开发一套新闻网站[web项目],需要大量的新闻素材作为网站的基础数据,现要对1000个指定的新闻网站中的30天的数据进行获取。通常情况下,如果是针对性的大量数据的采集工作,我们会使用爬虫程序进行自动化操作。

爬虫分类

第一个爬虫程序

环境:python2.7
# -*- coding: utf-8 -*-
# python2中使用的是ACSII编码,对中文支持不太好,所以一般在程序第一行加一行注释说明使用的什么编码格式
# 引入需要的模块
import urllib2

# 爬求指定网页
response = urllib2.urlopen("https://www.taobao.com")

print(response.read())
上一篇下一篇

猜你喜欢

热点阅读