python爬取已登记公司基本信息
昨天在一个群里看见一个信息:
说想学习python操作excel和word方面的知识,想找一个python的老师,一对一付费,远程讲解回答问题就可以,有合适的朋友和我联系。
image平常玩编程,有时候找不到很好的应用场景,觉的是个好机会,准备看看是什么问题。
对话内容如下:
我:你好,请问一下,你想用python操作excel和word,主要是解决哪方面问题?
对方:快速制作审计报告
我:ok,业务流程你可以尝试梳理成一系列的步骤。每次把你的步骤需要解决的问题告诉我(比如是合并文件,或者提取什么数据,进行什么操作等)。1.我会根据这个问题做一个简单的案例给你,你可以把案例应用到你的具体内容上去。2.如果基础比较好也可以直接给你说思路。
对方:我现在需要一个根据公司名称,从国家工商局网站抓取这个公司的基本信息,然后写到审计报告的企业基本信息的位置的一个功能。我自己从网上下的爬虫都是一次弄很多公司的,根本也连接不上。
我:你不能给我看一下实际完成的效果。可以截个图(网上原始信息-你要的信息-要放到什么文件什么位置)
......
对方:就是基本信息,如果能写到word里,当然是越详细越好。我的想法是我们做尽调的时候,要查企业的基本信息,在最高人民法院判决书网要查,有没有诉讼?如果有诉讼啊,相关的判决书下载下来,如果是上市公司,还要去巨潮资讯网查一下相关的报告,如果在Python输入公司名称,这些信息都能自动扒取出来,给个摘要贴在word里,就完美了。然后从哪个网站抓取的信息做个标题表示从这个网站上抓取的,后面有一些,概要信息就行了。
image image image第一次尝试
爬虫虽然知道,但是都爬取一些非常简单的,就是给一个网址,访问这个链接拿到网页内容,回来做个简单的处理就可以了。
他给我提供的是国家工商局网的网址,进去后发现访问非常慢,每次搜索会随机让你输入验证码(滑动和语序点击并存)。
image本地测试先爬取首页试试,结果连首页都获取不了,换了个方法,又爬取到了,等一会又不行了,网上查了一下。
原来这个网站反扒手段很多,反爬手段包括:加密混淆的js文件,IP封锁,验证码识别(滑动和语序点击并存),useragent检查,多重url拼接cookie。尝试了好几种,结果IP被封了,正常浏览器都访问不了,果断放弃,第一次失败。
image.png第二次尝试
查询企业信息除了国家工商局网,还有一些其它的网站,我的目标锁定了在企查查网站,进去之后要查看搜索结果还需要注册登录,登录成功还需要验证码。本地如果还是和之前一样爬取,肯定还是失败,注册了一个账号试了一下,果然就可以了,需要登录后查看,这种利用cookies就可以搞定了。
登录后查看headers,获取到cookie和user-agent。
image接下来就可以直接本地去爬取网页了。
image下面就用我经常使用的看球app直播吧来试一下。
image image链接显示一个固定的加一个搜索内容,还是很友好的。重新构造一下,为了以后方便改,这里把它分开写了,最后搜索在重新合并。
image点击结果进去后,发现链接地址有变了,我得提取两次了。
image思路是先获取前面查询的结果网页内容,从里面找到我们要的链接,然后在重新请求一次,返回网页内容。
image链接爬取回来后就是最后一步获取内容解析了。
image查看网页结构后先获取了两个内容,网页结构中还是有点小坑的,获取回来的选择器有空的,需要去掉tbody。
image image获取成功后就是寻找规律了,不然这么多信息全都按照上面的方式,那就太麻烦了。通过双重循环搞定,第一个法定代表人需要单独处理。
image爬取其它公司只需要改一下就可以了,获取内容到这里就完成了,后面的需要继续等对方提了。
image(全文完)
长按二维码,加关注!叶子陪你玩
欢迎转载,转载请注明出处!
欢迎关注公众微信号:叶子陪你玩编程
分享自己的python学习之路