各地工商库采集案例

2019-11-21  本文已影响0人  骨头社社员Vankd

简介:

之前写过一个新工商自动化处理的说明,主要是从逻辑角度出发,阐述各个脚本如何运行,数据如何追踪以及监控。

由于该项目主要功能为①采集新工商→②补充各个地区新工商的字段→③匹配入库,因此会涉及很多脚本。这篇博文则会从基础角度出发,简单阐述各个地区抓取新工商的接口和各个接口对应的特点(不只是自动化项目包含的脚本)。

新工商接口介绍:

通用--采集新工商(step1)(针对北、上、深、佛)

信用中国接口http://www.creditchina.gov.cn。非常好用的补充新工商的接口,但是以后可能会加一些防爬策略。

优点:

数据全:涵盖了全国的工商数据,资料覆盖在97%(之前分析了广州资料做对比)

效率高:刷号速度快,30W/天

稳定性好:封IP不频繁,没有繁琐的验证信息

缺点:

数据延迟:数据延迟15天+

缺少字段:缺乏注册资金和经营范围→需要从其他渠道补充

补充:信用中国为模糊匹配;注意,该接口中的括号全部为英文状态下的括号!!!

目前使用该接口做新增的有北京、上海、佛山、深圳,下面先对这几个地区做描述。

各地区新工商字段补充(step2):

北京:例:http://qyxy.baic.gov.cn/wap/creditWapAction!view_qy_wap.dhtml?reg_bus_ent_id=5C44397ABBCA009CE053A0630B15628D

北京市企业信用信息网手机端http://qyxy.baic.gov.cn/wap。该接口也可用于刷号处理。(20W/天)

北京端口查询和访问公司网站服务器相互独立互不影响,因此我将脚本分两步处理①搜索公司名或注册号抓取公司网址。②抓取网址里的工商字段。以防止数据丢失。

特点:效率比较高、封IP不频繁;受对方服务器影响,有时候会瘫痪

2019-02-27记录:

北京的刷号方式更改为selenium自动化抓取,因存在时间戳的缘故。

北京网址更新为:http://scjgj.beijing.gov.cn/qyxy/wap/creditWapAction!view_qy_wap.dhtml?reg_bus_ent_id=ff80808162841cac0162857c3bf070a1

北京年检网址更新为:http://scjgj.beijing.gov.cn/qyxy/wapqyzb/wapqyzbAction!wapbsnd.dhtml?entId=ff80808162841cac0162857c3bf070a1

北京年报页网址更新为:http://scjgj.beijing.gov.cn/qyxy/wapnb/wapnbAction!wapnbxx.dhtml?cid=69da219fb5884137b7cd68ca6742208f&entid=ff80808162841cac0162857c3bf070a1&credit_ticket=6C932FFC8676254D949582A4AE6AD6B3

上海:全国公示信息系统(滑块验证)http://sh.gsxt.gov.cn/notice。滑块验证中属上海最为稳定,且速度较快(1W/天,远程服务器运行打折扣)

滑块验证中使用了PhantomJS无边框浏览器,由于验证码的识别需要截图,目前只有上海可以做到无边框截图验证码部分。其他地区比如广东,无法截图到对应的验证码区域,这个问题待解决待优化

特点:模拟人为查询公司,获取全国公示版工商信息【该接口的信息最具有价值,未来打算全部更成此接口的网址】

深圳:深圳市市场监督管理委员会http://www.szmqs.gov.cn/。该接口亦可查询企业年报。

以搜索词访问接口,抓取返回的网址

特点:封IP不频繁但网址响应时间长,采集一个月的新工商需要3天时间补充字段

补充:该接口为模糊匹配;注意,该接口下公司名的括号全部为中文状态下的括号

深圳补充商事主体URLhttps://app03.szmqs.gov.cn/xyjggs.webui/xyjggs/Detail.aspx?id=440301001012016011417594&view=nbxx

通过构造endid 来抓取一整年的深圳工商,构造思路(以上一个网站为例):

44030100101:为公司的地区所在代码;20160114:表示该公司的成立日期;17594:为变量值,一般会累加计算(后续简称为X)

通过观察,相同成立日期的X隔8的概率非常高(40+%),同时相邻的两个公司X的十位数不可能相同,按照这个规律制定刷号方式:

先+8,判断是否需要request,如果有内容循环,没有内容的话十位数+1,个位数为0,持续+1。

while True:

创建一个变量A=保存最近一个有内容的X,同时创建一个变量B=A+8

if A的十位数 != B的十位数:

if request判断是否有内容:

A = B

if A != B:

A= (X的十位数+1,个位数为0)

n = 0(计数)

while true:

if request A:

break

else:

A = A+1

N = N+1

深圳年报页采集:根据刷号生成的工商页直接生成年报网址https://app03.szmqs.gov.cn/xyjggs.webui/xyjggs/NBInfo.aspx?Entid=440301001012016011417594&NBYear=2018

佛山:A.信用佛山http://xy.fspc.gov.cn/credit/1/4.html?leftnum=1。试运营的接口【比较差】

B.信用百度http://xin.baidu.com/。百度企业信用查询接口【通用】

佛山补充字段比较繁琐,通过A接口第一次补充,再通过B接口补充剩余部分。

特点:A接口资料不全(只能补充50%)、刷号效率低、个别字段打码屏蔽

B接口不封IP、效率一般→一般作为全区最后的补字段手段。

其他地区新工商增补手段(step3):

东莞:①双公示http://credit.dg.gov.cn/zygx_dgxy/sgs/xzxkIndex.do?ptjgid=4028818e41fb0cad0141fb0eafef00b8。②信用东莞http://credit.dg.gov.cn/zygx_dgxy/

因东莞有公司+个体的双公示更新渠道且每日更新,所以通过①抓取当月更新的公司名,再利用②抓取公司名的工商信息

特点:①接口刷号速度快,一般1个月的量6000页网址3小时可以搞定。②接口刷号速度一般、字段较全、可搜索个体户资料

苏州:①火车头脚本刷取公司名。②江苏工商局http://www.jsgsj.gov.cn/baweb/show/sj/business_query.jsp?flag=2&fenceid=1。③信用中国接口

火车头利用花钱接口抓取上月更新公司(该接口月中更新上月工商信息,有电话),利用②接口公司名补充字段,③接口补充②接口剩余部分。

特点:①火车头每月月中执行一次。②接口补充字段较慢且缺少注册号及企业状态

广州:广州市商事主体http://cri.gz.gov.cn/。比较成熟稳定的工商接口。

广州新工商更新频率为日更,字段较全,资料较全,是7个地区最省力的工商补充地区。由晓东这边每日处理定时脚本任务

特点:无缺点。

上一篇下一篇

猜你喜欢

热点阅读