@IT·互联网爬虫专题

爬虫爬虫,又酷又有趣

2017-07-22  本文已影响200人  Sharon的英语小镇

        爬虫,是一种形象的比喻,也叫蜘蛛,将互联网比作一张大网,而爬虫就是在这张大网上爬来爬去的蜘蛛。

图片来源于网络

        爬虫技术的原理就是通过网页的URL来寻找网页,读取网页内容,找到网页中的其他URL,然后爬到这些网页中再次获取数据,如此循环,直到爬完整个网站所有网页为止。

        爬虫爬取数据时必须要有明确的种子URL,这是爬虫获取数据的基本依据。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。

        它的基本工作流程如下图所示:

        爬虫技术的原理简单,它能给我们带来哪些很酷很有趣的事情呢?

爬头像

  某网友爬了知乎12万用户的头像,把长得像的头像放在一起,方便浏览,然后搜集知友们的点击率,预测出知友们最喜欢的人长的样子。不得不说,这位网友太有才了。

爬车型数据分析

  某网友想买车,自己开发一个爬虫小程序,把自己的目标车型和汽车之家的几款相关车型做对比分析。首先,通过空调、动力、操控、外观、内饰、性价比等方面做单项评分;然后,爬了对这几款车型感兴趣的客户的评论,发现保险及维修是大多客户感兴趣的话题;最后,再爬了客户对这几款车的需求是什么,有为了上下班、接送小孩、自驾游等需求。这样一来,车型之间的对比一目了然,节约了不少的时间。

爬购物

  某网友喜欢购物,所以经常用爬虫爬一些购物网站的折扣信息,这样就能及时发现一些性价比高的商品,这个超级实用有木有。

爬视频

  有些视频非会员是无法观看的,于是某网友写个爬虫程序,将自己想看但需付费的视频下载下来,慢慢品味,感觉有点黑客的味道。

  爬虫技术的实例数不胜数,尽管有些时候有点无厘头,但不可否认它们又酷又有趣,为我们的生活也增添了不少的乐子,你说是吗?


我的动力来源于您的文字,欢迎留言评论

作者Sharon,一个行走的自由者

上一篇下一篇

猜你喜欢

热点阅读