各地工商库采集案例
简介:
之前写过一个新工商自动化处理的说明,主要是从逻辑角度出发,阐述各个脚本如何运行,数据如何追踪以及监控。
由于该项目主要功能为①采集新工商→②补充各个地区新工商的字段→③匹配入库,因此会涉及很多脚本。这篇博文则会从基础角度出发,简单阐述各个地区抓取新工商的接口和各个接口对应的特点(不只是自动化项目包含的脚本)。
新工商接口介绍:
通用--采集新工商(step1)(针对北、上、深、佛):
信用中国接口http://www.creditchina.gov.cn。非常好用的补充新工商的接口,但是以后可能会加一些防爬策略。
优点:
数据全:涵盖了全国的工商数据,资料覆盖在97%(之前分析了广州资料做对比)
效率高:刷号速度快,30W/天
稳定性好:封IP不频繁,没有繁琐的验证信息
缺点:
数据延迟:数据延迟15天+
缺少字段:缺乏注册资金和经营范围→需要从其他渠道补充
补充:信用中国为模糊匹配;注意,该接口中的括号全部为英文状态下的括号!!!
目前使用该接口做新增的有北京、上海、佛山、深圳,下面先对这几个地区做描述。
各地区新工商字段补充(step2):
北京市企业信用信息网手机端http://qyxy.baic.gov.cn/wap。该接口也可用于刷号处理。(20W/天)
北京端口查询和访问公司网站服务器相互独立互不影响,因此我将脚本分两步处理①搜索公司名或注册号抓取公司网址。②抓取网址里的工商字段。以防止数据丢失。
特点:效率比较高、封IP不频繁;受对方服务器影响,有时候会瘫痪
2019-02-27记录:
北京的刷号方式更改为selenium自动化抓取,因存在时间戳的缘故。
上海:全国公示信息系统(滑块验证)http://sh.gsxt.gov.cn/notice。滑块验证中属上海最为稳定,且速度较快(1W/天,远程服务器运行打折扣)
滑块验证中使用了PhantomJS无边框浏览器,由于验证码的识别需要截图,目前只有上海可以做到无边框截图验证码部分。其他地区比如广东,无法截图到对应的验证码区域,这个问题待解决待优化。
特点:模拟人为查询公司,获取全国公示版工商信息【该接口的信息最具有价值,未来打算全部更成此接口的网址】
深圳:深圳市市场监督管理委员会http://www.szmqs.gov.cn/。该接口亦可查询企业年报。
以搜索词访问接口,抓取返回的网址
特点:封IP不频繁但网址响应时间长,采集一个月的新工商需要3天时间补充字段
补充:该接口为模糊匹配;注意,该接口下公司名的括号全部为中文状态下的括号
深圳补充商事主体URL:https://app03.szmqs.gov.cn/xyjggs.webui/xyjggs/Detail.aspx?id=440301001012016011417594&view=nbxx
通过构造endid 来抓取一整年的深圳工商,构造思路(以上一个网站为例):
44030100101:为公司的地区所在代码;20160114:表示该公司的成立日期;17594:为变量值,一般会累加计算(后续简称为X)
通过观察,相同成立日期的X隔8的概率非常高(40+%),同时相邻的两个公司X的十位数不可能相同,按照这个规律制定刷号方式:
先+8,判断是否需要request,如果有内容循环,没有内容的话十位数+1,个位数为0,持续+1。
while True:
创建一个变量A=保存最近一个有内容的X,同时创建一个变量B=A+8
if A的十位数 != B的十位数:
if request判断是否有内容:
A = B
if A != B:
A= (X的十位数+1,个位数为0)
n = 0(计数)
while true:
if request A:
break
else:
A = A+1
N = N+1
深圳年报页采集:根据刷号生成的工商页直接生成年报网址https://app03.szmqs.gov.cn/xyjggs.webui/xyjggs/NBInfo.aspx?Entid=440301001012016011417594&NBYear=2018
佛山:A.信用佛山http://xy.fspc.gov.cn/credit/1/4.html?leftnum=1。试运营的接口【比较差】
B.信用百度http://xin.baidu.com/。百度企业信用查询接口【通用】
佛山补充字段比较繁琐,通过A接口第一次补充,再通过B接口补充剩余部分。
特点:A接口资料不全(只能补充50%)、刷号效率低、个别字段打码屏蔽
B接口不封IP、效率一般→一般作为全区最后的补字段手段。
其他地区新工商增补手段(step3):
东莞:①双公示http://credit.dg.gov.cn/zygx_dgxy/sgs/xzxkIndex.do?ptjgid=4028818e41fb0cad0141fb0eafef00b8。②信用东莞http://credit.dg.gov.cn/zygx_dgxy/
因东莞有公司+个体的双公示更新渠道且每日更新,所以通过①抓取当月更新的公司名,再利用②抓取公司名的工商信息
特点:①接口刷号速度快,一般1个月的量6000页网址3小时可以搞定。②接口刷号速度一般、字段较全、可搜索个体户资料
苏州:①火车头脚本刷取公司名。②江苏工商局http://www.jsgsj.gov.cn/baweb/show/sj/business_query.jsp?flag=2&fenceid=1。③信用中国接口
火车头利用花钱接口抓取上月更新公司(该接口月中更新上月工商信息,有电话),利用②接口公司名补充字段,③接口补充②接口剩余部分。
特点:①火车头每月月中执行一次。②接口补充字段较慢且缺少注册号及企业状态
广州:广州市商事主体http://cri.gz.gov.cn/。比较成熟稳定的工商接口。
广州新工商更新频率为日更,字段较全,资料较全,是7个地区最省力的工商补充地区。由晓东这边每日处理定时脚本任务
特点:无缺点。