基于Python爬取天眼查网站的企业信息

2019-03-27 本文已影响37人 9ba4bd5525b9

这是一个比较简单的爬虫，基本上只用到了代理，没有用到其他的反反爬技术，不过由于爬取的数据比较多，适合刷解析技能的熟练度，所以高手勿进

python版本：python2或Python3 两个版本的代码都有

编码工具：pycharm

数据存储：mysql

爬虫结构：广度爬虫

想要学习Python？Python学习交流群：984632579满足你的需求，资料都已经上传群文件，可以自行下载！

先获取需要采集信息的公司：

1、从数据库中获取

2、获取字段：etid，etname

3、将获取的数据存储的状态表中

4、从状态表中获取数据，并更新状态表

拼接初始URL：

1、将etname和初始url进行拼接，获得初始网址

2、将初始url放到一个列表中，获取HTML的时候如何出错，将出错的url放到另一个列表中，进行循环获取

请求解析初始一级页面：

1、验证查询的公司是否正确（？？）

2、获取二级页面url

3、将二级url放到一个列表中，获取HTML的时候如何出错，将出错的url放到另一个列表中，进行循环获取

请求解析二级页面：

1、获取的信息待定

将公司的信息存储到数据库中：

1、建表

2、存储信息

GitHub地址：https://github.com/huquan1996/PythonSpider/tree/master/Item4%EF%BC%9Aspider_tianyancha