数据蛙数据分析每周作业

网络爬虫入门(一)之初识爬虫

2019-02-08  本文已影响5人  Chad你要加油

一、什么是爬虫,爬虫能做什么

爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。

爬虫可以抓取的某个网站或者某个应用的内容,提取有用的价值。也可以模拟用户在浏览器或者App应用上的操作,实现自动化的程序。以下行为都可以用爬虫实现:

二、爬虫基本原理

爬虫是 模拟用户在浏览器或者App应用上的操作,把操作的过程、实现自动化的程序。

当我们在浏览器中输入一个url后回车,后台会发生什么?比如说你输入https://www.baidu.com,简单来说这段过程发生了以下四个步骤:

网络爬虫要做的,简单来说,就是实现浏览器的功能。通过指定url,直接返回给用户所需要的数据, 而不需要一步步人工去操纵浏览器获取。可看流程图


流程图

结尾

网络爬虫入门(一)之初识爬虫就介绍到这里,下一篇文章将会介绍爬虫的基本流程

从事任何职业都是一个工具,不是一首歌、不是一个节目,而是态度。
上一篇 下一篇

猜你喜欢

热点阅读