​Python帮你定制批量获取你想要的信息

2019-07-17  本文已影响0人  永恒君的百宝箱

前段时间帮一个小伙伴解决了这样一个问题,如下图:

问题描述

因为种种原因,小伙伴需要提取该网站的这一条条的信息,包括类型、许可证号、名称、日期等等。从图片上看到,一共有244页,手工复制粘贴的话根本就不现实。而且网站的信息是动态的,过段时间数据更新了,又面临着一系列繁琐的ctrl+c,ctrl+v。这个时候他找到我问有没有办法解决这个问题。

解决思路

接触过网页和python的朋友肯定一眼就看出来了,这就是个爬虫问题:
1、打开首页网址,获取的网页代码
2、分别定位到所需要获取的信息标签位置,提取类型、许可证号、名称、日期等一系列的信息。

3、然后打开下一页的网页,重复1、2的动作。
4、爬取完所有的网页后,把爬取到的信息汇总到一个列表当中。
5、新建excel文件,把数据写入,保存即可。
以上就是大致的一个操作过程,另外还要适当的加上一些反爬的代码和与用户简单交互的代码,显得人性化一些。

最终效果演示:

后续当然可以添加诸如多线程、图形化界面、封装等功能,可以再进一步提高效率。

源代码涉及到一些隐私,就不放了。之前也写过类似的文章:

Python帮你定制批量获取智联招聘的信息


感兴趣的可以联系我一起交流。

上一篇下一篇

猜你喜欢

热点阅读