python爬取已登记公司基本信息

2020-05-21 本文已影响0人叶子陪你玩

昨天在一个群里看见一个信息：

说想学习python操作excel和word方面的知识，想找一个python的老师，一对一付费，远程讲解回答问题就可以，有合适的朋友和我联系。

image

平常玩编程，有时候找不到很好的应用场景，觉的是个好机会，准备看看是什么问题。

对话内容如下：

我：你好，请问一下，你想用python操作excel和word，主要是解决哪方面问题？

对方：快速制作审计报告

我：ok，业务流程你可以尝试梳理成一系列的步骤。每次把你的步骤需要解决的问题告诉我（比如是合并文件，或者提取什么数据，进行什么操作等）。1.我会根据这个问题做一个简单的案例给你，你可以把案例应用到你的具体内容上去。2.如果基础比较好也可以直接给你说思路。

对方：我现在需要一个根据公司名称，从国家工商局网站抓取这个公司的基本信息，然后写到审计报告的企业基本信息的位置的一个功能。我自己从网上下的爬虫都是一次弄很多公司的，根本也连接不上。

我：你不能给我看一下实际完成的效果。可以截个图（网上原始信息-你要的信息-要放到什么文件什么位置）

......

对方：就是基本信息，如果能写到word里，当然是越详细越好。我的想法是我们做尽调的时候，要查企业的基本信息，在最高人民法院判决书网要查，有没有诉讼？如果有诉讼啊，相关的判决书下载下来，如果是上市公司，还要去巨潮资讯网查一下相关的报告，如果在Python输入公司名称，这些信息都能自动扒取出来，给个摘要贴在word里，就完美了。然后从哪个网站抓取的信息做个标题表示从这个网站上抓取的，后面有一些，概要信息就行了。

image

image

image

第一次尝试

爬虫虽然知道，但是都爬取一些非常简单的，就是给一个网址，访问这个链接拿到网页内容，回来做个简单的处理就可以了。

他给我提供的是国家工商局网的网址，进去后发现访问非常慢，每次搜索会随机让你输入验证码（滑动和语序点击并存）。

image

本地测试先爬取首页试试，结果连首页都获取不了，换了个方法，又爬取到了，等一会又不行了，网上查了一下。

原来这个网站反扒手段很多，反爬手段包括：加密混淆的js文件，IP封锁，验证码识别（滑动和语序点击并存），useragent检查，多重url拼接cookie。尝试了好几种，结果IP被封了，正常浏览器都访问不了，果断放弃，第一次失败。

image.png

第二次尝试

查询企业信息除了国家工商局网，还有一些其它的网站，我的目标锁定了在企查查网站，进去之后要查看搜索结果还需要注册登录，登录成功还需要验证码。本地如果还是和之前一样爬取，肯定还是失败，注册了一个账号试了一下，果然就可以了，需要登录后查看，这种利用cookies就可以搞定了。

登录后查看headers,获取到cookie和user-agent。

image

接下来就可以直接本地去爬取网页了。

image

下面就用我经常使用的看球app直播吧来试一下。

image

image

链接显示一个固定的加一个搜索内容，还是很友好的。重新构造一下，为了以后方便改，这里把它分开写了，最后搜索在重新合并。

image

点击结果进去后，发现链接地址有变了，我得提取两次了。

image

思路是先获取前面查询的结果网页内容，从里面找到我们要的链接，然后在重新请求一次，返回网页内容。

image

链接爬取回来后就是最后一步获取内容解析了。

image

查看网页结构后先获取了两个内容，网页结构中还是有点小坑的，获取回来的选择器有空的，需要去掉tbody。

image

image

获取成功后就是寻找规律了，不然这么多信息全都按照上面的方式，那就太麻烦了。通过双重循环搞定，第一个法定代表人需要单独处理。

image

爬取其它公司只需要改一下就可以了，获取内容到这里就完成了，后面的需要继续等对方提了。

image

(全文完)

长按二维码，加关注！叶子陪你玩

欢迎转载，转载请注明出处！
欢迎关注公众微信号：叶子陪你玩编程
分享自己的python学习之路

上一篇下一篇

猜你喜欢

热点阅读