技术栈python小课——零基础入门——学习笔记

Python爬取短视频网站资源并下载

2021-04-10  本文已影响0人  浪漫矢志不渝

目前大多数视频资源,网上基本都能拿到,今天遇到一个页面元素存在,但是源码中不存在的情况,所以常规的爬取无法拿到资源链接,所以我这里使用的是selenium,模拟浏览器的方式实现的。

对比下页面元素及源码

源码 页面元素

可以发现,我们如果通过常规的爬取拿到的页面内容是不包含类pa pai里面的内容的,也就是拿不到视频资源链接。

所以我使用了模拟浏览器的浏览方式取获取页面内容。

类库包

首先导入一些必须的类库包,具体使用哪些,自己可以优化使用。主要的还是selenium和lxml。

声明和设置一些属性

driver_path:驱动的路径(这个需要下载)。

同时为了更快的获取资源,这里使用了谷歌的插件,来达到不加载图片节省爬取资源时间。

path:存储资源的路径。

host:爬取域名(一般用来拼接资源使用)。

url:爬取目标页面(这里由于爬取的对象,比较正规,所以码了,不过看路径的也就懂了)

然后就是启用配置驱动插件,设置必要的请求头,来获取页面内容了,同时创建本地存储目录。

关键代码

这里拿到页面内容后,使用插件格式化内容,并使用xpath获取目标数据源,基本就可以达到获取资源的目的了。

这里说明的一点。如果是常用的requests方式取获取,根本就拿不到play_url。所以这里也就采取了两种方式结合来获取资源了。

才用python不久也许有更好的方式。欢迎各路神仙指教。

上一篇下一篇

猜你喜欢

热点阅读