网络爬虫轻松入门笔记
2018-09-12 本文已影响0人
dravenxiaokai
常见网页抓取工具
火车头采集器:
老牌专业数据采集工具
效率高、功能全、接口齐全,可扩展
主要缺点:
1.只能抓取静态网页
现在越来越多的主流沾点和核心数据展示都是使用动态页面
2.无法实现国语复杂的流程和逻辑
次要缺点:采集规则的编写对不懂代码的用户来说有难度
八爪鱼
全鼠标拖放,图文操作界面
操作简介,易于理解,入门成本低
可以使用云采集方式运行,不需要本机开机
主要缺点:对用户进一步成长不利
1.对用户学习网络爬虫抓取相关知识帮助有限
2.复杂功能严重依赖软件开发商提供
次要缺点:所有操作都需要消耗积分,大量采集数据实际不免费
还有:杀毒软件总是报告他有木马?!
火车浏览器
- 集合了八爪鱼和火车头采集器的优点
像八爪鱼一样易学易用
比火车头采集器功能更加强大
可以抓取动态网页 - 只要看得到的页面内容,全都可以采集下来!
- 100%模拟真人对浏览器的操作动作,可以达成任何操作目的
- 可实现任意复杂的操作逻辑
- 可编译成EXE文件脱离平台直接发布并运行
- 保持易用特征的同时,对学习相应的编程知识有非常有帮助
缺点:
抓取速度比火车头采集器明显要慢
免费版一个项目只能抓取30分钟,超时后抓取程序会停止,必须手动重新启动
收费版价格明显要比火车头采集器贵
案例:
- 大众点评数据抓取
- 淘宝数据抓取
- 微信公众号文章检测与抓取
微信是防抓取功能最为完善的社交网络软件之一
必须互相关注才能看到个人发送的信息
必须个人明确授权才能获取个人信息
用模拟器登录会直接封账号
没有网页版本可供抓取
通讯内容有一定程度的加密(呵呵)