本专题以项目为驱动,从基本的网络请求和页面解析开始,逐步深入到 scrapy爬虫框架,在讲解完库之后,会跟上对应的实践项目,有兴趣朋友的可以跟着实践自己敲代码或者完成我留下的 bug,把代码发到评论区,我会不定时查看。
本专题假设读者有一定的python基础,所以并不会讲python的基本语法,遇到语法问题可以评论求助。
因为本专题涉及的库比较多,而且作者不能把时间全部用在更新上,所以本专题完成的时间可能较长,在本专题中会涉及到以下主题:
1、requests 库
(网络请求)
2、lxml 库 和 xpath 用法
(htnl页面解析)
4、html 网页的解析
5、数据的处理和存储(json,csv)
6、threading 库 (多线程)
7、asyncio 库 (异步)
8、数据库 以及 orm
9、scrapy 爬虫框架
在写这些的时候,我也在不断地学习,如果我在学习的过程中发现了更好的库,就会换一个库讲,但是上面所列的点是不会变的。
最后,如果在文章中出现了错误,欢迎在评论中指出,我会在后续的更新中修改。
谢谢