如何突破阿里巴巴防采集，八爪鱼实例破解教程

2017-03-07 本文已影响2824人 gbkhero

市面上B2B网站多如牛毛，真正有价值、认真做的没几家，大部分都成为推广人员发布信息的平台工具，垃圾信息多的数不胜数，对于企业名录，真正可信、完善的B2B网站就属阿里巴巴平台了。

要采集阿里巴巴企业名录可不是容易的事，对于企业数据的保护，阿里早有措施应对，比如需要登录采集，非登录状态下采集数据有限，而且时不时还弹出登录页面，采集中还会出现验证码，这个好控制，只要对接大码平台，花销一笔小小的费用即可。

下面小编来分享一下，如何突破阿里巴巴防采集措施，规避验证码的方法（方法可有时效性，敌变我也变，自己分析）。

小编使用目前最易于使用、采集体验较好的八爪鱼采集工具做示例，首先你需要做以下准备：

1、通过此链接http://dls.bazhuayu.com/ws/2下载八爪鱼采集工具最新版安装好

2、注册账户，并登陆八爪鱼客户端

下一步，咱们开始新建任务（高级），命名为“阿里巴巴企业名录采集”，选中“模拟手机访问网页”，是为了让阿里巴巴认为咱们是用手机打开的。

下一步，按照流程图，编辑好采集流程，注意网址要输入：http://m.1688.com，规避验证码的方式就在这里，1688的手机页面size小加载快，而且暂时没有验证码。

3、在最终“提取数据”步骤，要注意2个字段采集XPATH如何设置才能采集到，联系电话：//DIV[@class='archive-sheet-item phone']，旺旺ID：//DIV[@class='archive-contact-wangwang']。

最后，咱们启动采集，看看采集试跑的效果。

小编采集了几分钟，采集数据预览如下：

小编专注大数据采集和分析多年，有丰富的数据采集定制经验，有需求，特别是各种疑难网站采集都可以找小编，加Q540111029，就说是简书看到的。