爬虫

一篇文章就够打通python网络请求,scrapy爬虫,服务器,

2018-08-26  本文已影响89人  c2aa1d94244a

前段时间,铲屎官陆陆续续发了很多技术文章,由于篇幅太多,这里给大家规整一下,并且每篇文章都写个中心思想,方便大家查阅。但是,就是由于字数太多,文章是一个系统教程,肯定有99%的人没有看或者看完。

可是,铲屎官有一位很热心的读者,是一名在读研究生,非计算机专业,马上就快毕业了,想找和计算机靠边的工作,想在自己的简历里面添枝加叶,他就根据铲屎官写的教程文章,自己一步一步跟下来,遇到不会的问题,铲屎官帮忙看看,在公众号上开发了一套学校成绩查询系统。可以说这波操作很强!

image image image image image

当他最后告诉我成功了,我很开心,因为我觉得,他用差不多一周的时间,通过看我的文章,从啥也不会,到公众号研发成功,我感觉很厉害。而且他这段经历,能够在他的简历上浓墨重彩的写一下,对校招找工作帮助也很大。那么今天,我就给大家来说一下,我的文章都说了什么。这篇文章就相当于是一个INDEX和ABSTRACT的结合体了。

Python系列文章

我们今天就来捋一捋这系列文章中,你能学到什么。

基础篇

『【Python实战】用代码来访问1024网站』

这篇文章主要讲述了在爬虫中最常用的Python操作,没有使用任何框架,纯调用最基础的操作,这篇文章你可以学到:

注意:
由于这个项目是很长时间之前写的,现在社区地址早已变更。如需让程序跑通,需要修改网站地址,以及html中间一些tag名称。

『【Python实战】用代码在1024论坛实现自动回贴,快速升级』

这篇文章,主要是用Python的request中的session来执行POST登录操作。这个步骤很关键。如果网站需要用户名密码进行登录,可以参考这篇文章中的做法。

注意:
由于这个项目是很长时间之前写的,现在社区地址早已变更。如需让程序跑通,需要修改网站地址。

Scrapy篇

『【Python实战】用Scrapy编写“1024网站种子吞噬爬虫”』

这篇文章利用Scrapy爬虫框架,来爬取网站,并且加入了pipeline,对爬取结果做了处理保存处理,将图片和种子均保存在本地。

注意:
由于这个项目是很长时间之前写的,现在社区地址早已变更。如需让程序跑通,需要修改网站地址,以及html中间一些tag名称。

『【Python实战】手把手超详细教程教你Scrapy爬达盖尔社区』

这篇文章,超级详细的给大家讲解了Scrapy如何使用,通过爬取达盖尔旗帜社区,一步一步的分析html格式,并且最后指导大家怎样保存图片,如果从零入门Scrapy的话,建议跟着这篇文章做。

注意:
由于这个项目是很长时间之前写的,现在社区地址早已变更。如需让程序跑通,需要修改网站地址,以及html中间一些tag名称。

Scrapy高级篇

『【Python实战】用Scrapyd把Scrapy爬虫一步一步部署到腾讯云上』

这篇文章主要讲述了,写好爬虫之后,可以将爬虫部署到云服务器上,在云服务器上定时执行,让你的爬虫,真正意义的投入到生产实践中。文章一步一步的讲述部署步骤,很详细。

注意:
文章中讲述了Python3的安装,但是少了两行创建Python3软链接的命令,这里给大家补充一下:

# ln -s /usr/local/python3/bin/python3 /usr/bin/python3
# ln -s /usr/local/python3/bin/pip3 /usr/bin/pip3

运行了之后,你以后如果想运行Python3,就只需要输入# python3就可以了,pip同理,# pip3替换原来的pip命令。
还有一点,文章有一行代码是错的,就是在云服务器上安装scrayd client的时候,应该是:pip install scrapyd-client

爬虫服务器篇

『【Python实战】在阿里云服务器上安装MongoDB,并实现远程可视化连接

这篇文章主要讲述了在阿里云上面安装MongoDb的步骤,每一步都有截图,指令。很详细的教程。在腾讯云安装也是一样的步骤。记得修改配置文件,打开安全组的端口,启动服务,就可以远程连接了。MongoDB的创建,是为了以后爬虫存储爬取信息而做的准备。

『【Python实战】跟我一步一步来,用Tornado来实现你的服务器梦想,纯干货教学』

这篇文章,讲述了如何在阿里云上面启动你的Torndao服务器。文章里面讲述了两种返回方式,很实用的说。如果想做API的,可以根据这篇文章里面讲解的思路来学习。

『帮你在你的服务器上部署Nginx,域名,SSL证书,内含『阿里云百元优惠券』』

既然你已经有了阿里云服务器,还在服务器上顺利的启动了你的服务程序,那么,接下来就可以购买域名,配置SSL证书,实现https的访问。这篇文章就是告诉你怎么配置nginx和域名的。让你的网页不在需要通过ip来访问,而是通过域名访问。详细步骤,高清截图,现有的配置文件文本,复制黏贴就好。

『手把手用阿里云服务器搭建袜子工具,从此不再求人』

好多网站都访问不了,别怕,铲屎官带你通过代码来打开外面的世界。此文超级详细的步骤,真的超级详细!一步一步,按照指示敲代码,完全可以搞定!从服务器购买带最后成功访问网页的全套流程,全套截图。真的不能再细了,再细感觉就只能你有偿的让铲屎官帮你调试了。

纯高阶骚操作篇

『【Python实战】带你玩转Scrapy的高阶骚操作,带邮件功能的“1024种子吞噬器2.0”,更高更快更强!』

这个是针对之前的“种子吞噬器”的改进版本,使用FilesPipeline来替换原来文章中的requests,效率提升的好可怕!而且,还带了发邮件的功能,让你的种子下载下来,既在本地保存,还能再邮箱里面备份一份,超级屌的!

注意:
由于这个项目是很长时间之前写的,现在社区地址早已变更。如需让程序跑通,需要修改网站地址。

『【Python实战】通过“酸酸”的骚操作,让Scrapy爬虫变得没有国界,真正的硬核为所欲为,想爬啥就爬啥』

这篇文章,也是骚的不行,通过详细的步骤,来告诉你Scrapy爬虫如何通过境外服务器配置的酸酸,访问那些我们平时访问不到的网站。而且,这个项目是可以部署到云服务器的,自动运行,不需要人工每天点击就可以运行。铲屎官每天都是教的干货,你不服不行。

END

OK, 目前为止,铲屎官就写了这些文章,其实还有一个小程序的文章『手把手一条龙教程,专门献给还没有写过小程序的你』,用来帮你小程序入门,也是有彩蛋的,哈哈哈哈。

以上全部文章的代码,获取方式:
关注微信公众号『皮克啪的铲屎官』,回复『代码』,即可获取全部代码下载地址。

最后了,推广一下自己的小程序『六十四卦』,炒鸡好用,没事了可以摇一摇试一试。

image

这么硬核的公众号,还不关注一波啊?

image
上一篇下一篇

猜你喜欢

热点阅读