Python

从零开始写Python爬虫,这四大工具你值得拥有!

2020-12-16  本文已影响0人  Python热衷者

如果你正在学习编程,那么“爬虫”绝对是你不可忽视的。那么,学习python爬虫之前需要哪些准备?

当这些你都具备了,这个时候你需要学习:

1.基本的爬虫工作原理

2.基本的http抓取工具:scrapy

3.Bloom Filter: Bloom Filters by Example

4.如果需要大规模网页抓取,你需要学习分布式爬虫的概念。简单来说,你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好。最简单的实现是python-rq: https://github.com/nvie/rq

5.rq和Scrapy的结合:darkrho/scrapy-redis · GitHub

6.后续处理:网页析取(grangier/python-goose · GitHub),存储(Mongodb)

python的火,很大原因就是各种好用的模块,这些模块是居家旅行爬网站常备的——

NO.1 F12 开发者工具

NO.2 抓包工具

NO.3 XPATH CHECKER (火狐插件)

非常不错的xpath测试工具,不过也有几个小缺点,:

  1. xpath checker生成的是绝对路径,遇到一些动态生成的图标(常见的有列表翻页按钮等),飘忽不定的绝对路径很有可能造成错误,所以这里建议在真正分析的时候,只是作为参考

  2. 记得把如下图xpath框里的“x:”去掉,貌似这个是早期版本xpath的语法,目前已经和一些模块不兼容(比如scrapy),还是删去避免报错。

NO.4 正则表达测试工具

在线正则表达式测试 ,拿来多练练手,也辅助分析!里面有很多现成的正则表达式可以用,也可以进行参考!

用爬虫还可以用来做的事:

1.刷票点赞(还可以用来抢车票)
2.采集微博热评 (采集微博热评进行情感分析祝你脱单)
3.寻找知乎最美小姐姐
4.采集抖音视频 (对抖音热门视频的爬取)

想到一句话,Python除了不会生孩子,什么都会... 爬虫也是如此,你要是想了解更多有关爬虫的相关知识可以

点击你想要的东西都在里面,还有各种有关于python的电子书,私信小编就可以获取

上一篇 下一篇

猜你喜欢

热点阅读