python爬虫的最佳实践(一)--概述
一些吐槽
首页ps:想看干货的学童请自动跳到下一篇,结尾处有目录。
第一次提笔真正的开始写一篇技术博客,以前总是认为自己的技术不好,达不到写博客的要求,然后不敢动笔写,后来我发现,技术这条路是无止境的,你并不能学会所有的东西,所有的人都是在互相交流中成长的,所以今天决定拿出一些干货来分享给大家。
这次的专题叫做python爬虫的最佳实践,首先说说为什么要写爬虫相关。因为我很喜欢python这门语言,简洁,功能强大的不像话,也非常易于上手。而人们提起python总是先想到爬虫,所以我决定把我所知道的爬虫知识分享给大家。至于为什么起名叫最佳实践,因为我是从一个纯小白慢慢成长的。我想大家都有同样的经历,就是每当遇到一个自己感兴趣的技术知识点的时候都希望有一套非常系统基础的入门教程,好让自己真正走进这个领域,然而遗憾的是,技术类的博客总是那么高深,让那些没有基础的小白们在无限的痛苦中徘徊,想看又看不懂。对于那些大神们来说,这种当然是好的。但是对于小白或者本身底子很好但是不了解行业的人来说太不友好了。
最佳实践流程
我自己在最初学习爬虫的时候挺痛苦的,因为没有什么系统的教程,只能一篇篇看些零散的博客来学习。所以我不想一众和我一样的小白们有一样的经历,根据我自己的经验,总结出来我的一套最佳实践流程:
- 配置好所需环境(ps:在这总能难倒很多小白)
- 深入理解demo
- 仿照demo进行自己的实践
- 对内容进行自我发掘和扩充,达到自己的既定目标
我们需要学习的不仅仅是编程技术,包括解决问题的思维模式,这也是我们学习的重点。
ps:我不是什么大神,所以如果有异议可以不用搭理上面的流程,每个人都有自己的学习方式。
实践内容
下来是专题的实践内容相关:
- 爬虫相关的知识,包括基础的爬虫以及类似pyspider等框架的使用
- 进阶爬虫,包括使用selenium模拟用户,在爬虫中使用多进程
- 数据处理的简单知识,因为很多人拿到数据不知道干什么
- 使用一些制图插件用图表的方式展示统计的数据
- 简单的Django建站知识(如何把数据展示出来)
ps:这篇博客不会讲python的相关知识,如果有鞋同对python的语法什么的还不太了解,推荐去看廖雪峰python
那么看完这个专题,你应该掌握如何编写爬虫,如何使用爬虫框架,如何做简单的数据分析和统计,如何根据统计的信息制作图表,如何把自己的图表通过网站展示出来。这是我们的终极目标。
写在最后
汗颜,写了这么多全是文字,一张图都没有,大家原谅我这纯洁的博客小白吧,废话不多说,直接进入下一章,python基础爬虫环境的搭建。
有兴趣的同学可以加群498945822一起交流学习哦~~
发现问题的同学欢迎指正,直接说就行,不用留面子,博主脸皮厚!