2018-03-22

2018-03-22  本文已影响24人  子非初心

目前有许多网站专门提供了企业信息查询功能,比较出名的有企查查、天眼查。而天眼查不需要登录就能查看其中的信息,所以就从天眼查下手。

天眼查是一款提供全面的企业信息查询、专业的企业关系挖掘的工具。

先简单解释下爬虫的几种基本方式:
1. 第一种是比较简单的,如果页面上有筛选功能并且能查看所有信息的,就直接根据多种筛选条件来遍历所有的信息;
2. 第二种是需要自己提供搜索词,去网站上将搜索结果保存下来就行,但是这种方法的结果依赖于你搜索词的齐全程度;
3. 第三种就是自驱动式的爬虫,提供一个或多个入口页面,提取出页面上所有符合要求的URL,再继续将这些URL当成父页面继续寻找子页面,直到网站上所有需要的内容全部保存,这种方法在爬取多层结构的网页时非常好用,保存的结构也非常清晰。

先按照第一种方法来找天眼查是否有按条件筛选的页面,在网站主页的下面部分有按区域查找,进入后发现能查询的最大页数被限制在50页,所以第一种方法并不能让我们遍历到网站的所有信息,当然了,像企业信息这种比较之前的数据也不是这么简单就能爬取的,下面来看第二中方法,提供搜索词,天眼查的搜索词那么就是企业名称,很显然企业名称也是很难找到实时性比较高的,那么只有第三种方式了。

随便点击一家企业进去后发现,页面上有很多关系,有法人代表、高管信息、股东信息、对外投资等关系信息,而点击这些关系信息有可以进入另外的页面。

把企业信息这个页面当中的URL分为两种,一种是指向人物的URL,另一种是指向公司信息的URL,就从这里入手,首先提供一部分公司名作为搜索词,进入企业信息后,提取出相应需要的企业信息后,再提取出指向人物和指向公司的URL,将这些URL再作为父页面查找出子页面。所以大概流程如下图:


流程图1.jpg

当然不止这么简单,天眼查网站的反爬措施还是很严格的,在同一个IP访问太频繁之后提交任何请求都会跳转到验证码的页面,所以这时候就需要构造一个IP代理池,这时候要用到Proxies,批量抓取大量免费IP代理,再通过多线程验证代理可用性,这些功能都写好了,剩下来只需要将获取并验证后的代理保存到数据库,要用的时候从里面取就行。

代理池.jpg
上一篇下一篇

猜你喜欢

热点阅读