一篇文章就够打通python网络请求，scrapy爬虫，服务器，

2018-08-26 本文已影响89人 c2aa1d94244a

前段时间，铲屎官陆陆续续发了很多技术文章，由于篇幅太多，这里给大家规整一下，并且每篇文章都写个中心思想，方便大家查阅。但是，就是由于字数太多，文章是一个系统教程，肯定有99%的人没有看或者看完。

可是，铲屎官有一位很热心的读者，是一名在读研究生，非计算机专业，马上就快毕业了，想找和计算机靠边的工作，想在自己的简历里面添枝加叶，他就根据铲屎官写的教程文章，自己一步一步跟下来，遇到不会的问题，铲屎官帮忙看看，在公众号上开发了一套学校成绩查询系统。可以说这波操作很强！

image

当他最后告诉我成功了，我很开心，因为我觉得，他用差不多一周的时间，通过看我的文章，从啥也不会，到公众号研发成功，我感觉很厉害。而且他这段经历，能够在他的简历上浓墨重彩的写一下，对校招找工作帮助也很大。那么今天，我就给大家来说一下，我的文章都说了什么。这篇文章就相当于是一个INDEX和ABSTRACT的结合体了。

Python系列文章

我们今天就来捋一捋这系列文章中，你能学到什么。

基础篇

『【Python实战】用代码来访问1024网站』

这篇文章主要讲述了在爬虫中最常用的Python操作，没有使用任何框架，纯调用最基础的操作，这篇文章你可以学到：

request网络请求操作。
Python文件读写操作。
利用BeautifulSoup4来解析html。

注意：
由于这个项目是很长时间之前写的，现在社区地址早已变更。如需让程序跑通，需要修改网站地址，以及html中间一些tag名称。

『【Python实战】用代码在1024论坛实现自动回贴，快速升级』

这篇文章，主要是用Python的request中的session来执行POST登录操作。这个步骤很关键。如果网站需要用户名密码进行登录，可以参考这篇文章中的做法。

requests的session使用。
模拟网站登录。

注意：
由于这个项目是很长时间之前写的，现在社区地址早已变更。如需让程序跑通，需要修改网站地址。

Scrapy篇

『【Python实战】用Scrapy编写“1024网站种子吞噬爬虫”』

这篇文章利用Scrapy爬虫框架，来爬取网站，并且加入了pipeline，对爬取结果做了处理保存处理，将图片和种子均保存在本地。

Scrapy框架。
pipeline保存图片和种子到本地。
BeautifulSoup解析html。

注意：
由于这个项目是很长时间之前写的，现在社区地址早已变更。如需让程序跑通，需要修改网站地址，以及html中间一些tag名称。

『【Python实战】手把手超详细教程教你Scrapy爬达盖尔社区』

这篇文章，超级详细的给大家讲解了Scrapy如何使用，通过爬取达盖尔旗帜社区，一步一步的分析html格式，并且最后指导大家怎样保存图片，如果从零入门Scrapy的话，建议跟着这篇文章做。

注意：
由于这个项目是很长时间之前写的，现在社区地址早已变更。如需让程序跑通，需要修改网站地址，以及html中间一些tag名称。

Scrapy高级篇

『【Python实战】用Scrapyd把Scrapy爬虫一步一步部署到腾讯云上』

这篇文章主要讲述了，写好爬虫之后，可以将爬虫部署到云服务器上，在云服务器上定时执行，让你的爬虫，真正意义的投入到生产实践中。文章一步一步的讲述部署步骤，很详细。

云服务器中Python3的安装命令。
Scrapyd的部署步骤。
云服务器的购买步骤。
云服务器的优惠券。

注意：
文章中讲述了Python3的安装，但是少了两行创建Python3软链接的命令，这里给大家补充一下：

# ln -s /usr/local/python3/bin/python3 /usr/bin/python3
# ln -s /usr/local/python3/bin/pip3 /usr/bin/pip3

运行了之后，你以后如果想运行Python3，就只需要输入# python3就可以了，pip同理，# pip3替换原来的pip命令。
还有一点，文章有一行代码是错的，就是在云服务器上安装scrayd client的时候，应该是：pip install scrapyd-client

爬虫服务器篇

『【Python实战】在阿里云服务器上安装MongoDB，并实现远程可视化连接
』

这篇文章主要讲述了在阿里云上面安装MongoDb的步骤，每一步都有截图，指令。很详细的教程。在腾讯云安装也是一样的步骤。记得修改配置文件，打开安全组的端口，启动服务，就可以远程连接了。MongoDB的创建，是为了以后爬虫存储爬取信息而做的准备。

阿里云优惠券。
阿里云安装MongoDB的详细步骤。
可视化连接MongoDB。
部分Python与MongoDB的交互代码。

『【Python实战】跟我一步一步来，用Tornado来实现你的服务器梦想，纯干货教学』

这篇文章，讲述了如何在阿里云上面启动你的Torndao服务器。文章里面讲述了两种返回方式，很实用的说。如果想做API的，可以根据这篇文章里面讲解的思路来学习。

tornado基本操作。
返回网页格式和返回JSON格式的API写法。
本地代码如何上传到阿里云服务器。
本地IDE如何配置远端调试。
阿里云部署tornado服务步骤。

『帮你在你的服务器上部署Nginx，域名，SSL证书，内含『阿里云百元优惠券』』

既然你已经有了阿里云服务器，还在服务器上顺利的启动了你的服务程序，那么，接下来就可以购买域名，配置SSL证书，实现https的访问。这篇文章就是告诉你怎么配置nginx和域名的。让你的网页不在需要通过ip来访问，而是通过域名访问。详细步骤，高清截图，现有的配置文件文本，复制黏贴就好。

域名购买流程。
安装配置Nginx。
如何获取SSL证书。
配置https。

『手把手用阿里云服务器搭建袜子工具，从此不再求人』

好多网站都访问不了，别怕，铲屎官带你通过代码来打开外面的世界。此文超级详细的步骤，真的超级详细！一步一步，按照指示敲代码，完全可以搞定！从服务器购买带最后成功访问网页的全套流程，全套截图。真的不能再细了，再细感觉就只能你有偿的让铲屎官帮你调试了。

境外服务器的购买方法。
阿里云腾讯云优惠券。
酸酸（SS）的配置方法。

纯高阶骚操作篇

『【Python实战】带你玩转Scrapy的高阶骚操作，带邮件功能的“1024种子吞噬器2.0”，更高更快更强！』

这个是针对之前的“种子吞噬器”的改进版本，使用FilesPipeline来替换原来文章中的requests，效率提升的好可怕！而且，还带了发邮件的功能，让你的种子下载下来，既在本地保存，还能再邮箱里面备份一份，超级屌的！

Python发送邮件，而且是带附件的邮件哦。
FilesPipeline的使用。
Scrapy的高阶使用方法。

注意：
由于这个项目是很长时间之前写的，现在社区地址早已变更。如需让程序跑通，需要修改网站地址。

『【Python实战】通过“酸酸”的骚操作，让Scrapy爬虫变得没有国界，真正的硬核为所欲为，想爬啥就爬啥』

这篇文章，也是骚的不行，通过详细的步骤，来告诉你Scrapy爬虫如何通过境外服务器配置的酸酸，访问那些我们平时访问不到的网站。而且，这个项目是可以部署到云服务器的，自动运行，不需要人工每天点击就可以运行。铲屎官每天都是教的干货，你不服不行。

阿里云腾讯云服务器优惠券。
酸酸服务器配置和客户端配置方法。
privoxy的本地配置，实现HTTP代理。
给Scrapy添加http代理的方法。
爬取境外网站信息。

END

OK，目前为止，铲屎官就写了这些文章，其实还有一个小程序的文章『手把手一条龙教程，专门献给还没有写过小程序的你』，用来帮你小程序入门，也是有彩蛋的，哈哈哈哈。

以上全部文章的代码，获取方式：
关注微信公众号『皮克啪的铲屎官』，回复『代码』，即可获取全部代码下载地址。

最后了，推广一下自己的小程序『六十四卦』，炒鸡好用，没事了可以摇一摇试一试。

image

这么硬核的公众号，还不关注一波啊？

image

一篇文章就够打通python网络请求，scrapy爬虫，服务器，

Python系列文章

基础篇

Scrapy篇

Scrapy高级篇

爬虫服务器篇

纯高阶骚操作篇

END

猜你喜欢

热点阅读