Python爬虫进阶：搭建属于自己的美少女图片站

2019-09-24 本文已影响0人不学无术丶

关注我的你应该已经学会了：爬取妹子图整站数据（教程已下架）

于是有人不禁会问：拿几十G的图片有什么用呢？

有什么用呢？我也自问。于是下面这个网站就诞生了......

小姐姐 ( 施工重地，闲人免入！女生请绕道~)

如果你想通过爬虫自动采集数据（比如：mm131、mmjpg、妹子图等各大美女图片站），并与前端网页对接，将采集到的数据自动呈现到网页上，从而搭建一个属于自己的图片站。那么，以下内容就是为你准备的！按着步骤来一定可以实现你想要的，当你对这个项目有了自己的认知后，就可以考虑二次开发精进创作~

（以下操作默认你已经拥有域名、服务器，安装了宝塔面板以及能通过Xshell连接，我也写了一篇小白教程帮你解决这些问题）

准备好就开始吧！

解析域名

(以我在用的GoDaddy域名为例)

访问GoDaddy官网并登录
打开域名管理器-DNS管理-添加记录
类型：A
主机：随意（比如：mm）
指向：填入服务器的ip地址
TTL：1/2小时

创建站点

进入宝塔面板，添加站点
设置根目录为:/root/94imm，同时创建MySQL数据库，PHP版本设置为纯静态
进入网站根目录，上传源代码文件
修改silumz文件夹下settings.py文件中的数据库配置，将程序目录下的silumz.sql文件导入数据库

DATABASES = {
    'default': {
        'ENGINE': 'django.db.backends.mysql',
        'NAME': '数据库名',
        'USER': '数据库用户名',
        'PASSWORD': '数据库密码',
        'HOST': '127.0.0.1',
        'PORT': '3306',
    }
}

启动项目

打开Xshell，进入程序目录
安装所需的Python第三方库：pip3 install -r requirements.txt
执行启动命令：uwsgi --ini uwsgi.ini

反向代理

进入宝塔面板，管理创建的站点
设置反向代理，目标URL为：http://127.0.0.1:8000

到这一步，项目网站就搭建好了，但此时网站还没有数据，需要运行爬虫程序爬取。爬虫程序位于crawler目录下，每一个文件都是独立的，可单独执行。第一次运行时，可修改爬虫参数采集全站，之后修改参数为采集第一页，配合定时任务，实现自动采集和发布

自动采集和发布

（以crawler_mm131.py爬虫程序为例）

修改程序中的数据库配置

dbhost = {
    "host": "127.0.0.1",
    "dbname": "数据库名",
    "user": "数据库用户名",
    "password": "数据库密码"
}

打开Xshell，进入程序目录
启动爬虫：python3 crawler_mm131.py
配合宝塔面板设置自动采集
重启网站：sh /root/94imm/restart.sh
完成采集后清空cache文件或重启网站就能生效哦~

进阶技巧

1.网站采集数据后，如果点击图集无法跳转，则需要在数据库中手动添加图片分类

进入宝塔面板，找到相应的数据库，点击“管理”
点击“images_type”-“插入”-在字段id和type的对应框中输入数字和图片类型

在爬虫文件中可以找到需要输入的信息，比如crawler_mm131.py中有性感美女和清纯妹子两个分类，分类id分别为1和3

2.发布本地图片

进入爬虫程序目录crawler，运行AutoPost.py，根据提示输入本地图片所在路径，输入自动发布时间

3.图片压缩

部分网站可能未对图片进行压缩，一张图1M甚至几M，既降低传输速度又占空间
进入爬虫程序目录crawler，运行Compress.py，根据提示输入，默认10个线程压缩，如果服务器配置高可适当增加，只压缩图片质量，尺寸不变

4.删除图集

进入爬虫程序目录crawler，运行delete_img.py，根据提示输入图集链接“/article/59885/”中的数字59885即可，会同时删除数据库记录和采集的图片

5.下载采集未完成的图片

进入爬虫程序目录crawler，运行down_img.py，自动查找数据库中存在但static/images目录中不存在的记录重新下载。并删除只有采集记录没有图片的数据

项目源码

https://pan.baidu.com/s/1Gj7UJ0XWuh2bI9IIZnv4ZA 提取码:72oo