程序员之道@IT·互联网中转站

成人网站PornHub爬虫分享(一天可爬取500万以上的视频)

2017-04-09  本文已影响2482人  xiyouMc

来自公众号 : DeveloperPython

声明:本项目旨在学习Scrapy爬虫框架和MongoDB数据库,不可使用于商业和个人其他意图。若使用不当,均由个人承担。

PornHubBot


源代码地址

环境、架构


开发语言: Python2.7

开发环境: MacOS系统、4G内存

数据库: MongoDB

使用说明


启动前配置

启动

运行截图



数据库说明


数据库中保存数据的表是 PhRes。以下是字段说明:

PhRes 表:

video_title:视频的标题,并作为唯一标识.
link_url:视频调转到PornHub的链接
image_url:视频的封面链接
video_duration:视频的时长,以 s 为单位
quality_480p: 视频480p的 mp4 下载地址
上一篇下一篇

猜你喜欢

热点阅读