Python爬取短视频网站资源并下载

2021-04-10 本文已影响0人浪漫矢志不渝

目前大多数视频资源，网上基本都能拿到，今天遇到一个页面元素存在，但是源码中不存在的情况，所以常规的爬取无法拿到资源链接，所以我这里使用的是selenium，模拟浏览器的方式实现的。

对比下页面元素及源码

源码

页面元素

可以发现，我们如果通过常规的爬取拿到的页面内容是不包含类pa pai里面的内容的，也就是拿不到视频资源链接。

所以我使用了模拟浏览器的浏览方式取获取页面内容。

类库包

首先导入一些必须的类库包，具体使用哪些，自己可以优化使用。主要的还是selenium和lxml。

声明和设置一些属性

driver_path：驱动的路径(这个需要下载)。

同时为了更快的获取资源，这里使用了谷歌的插件，来达到不加载图片节省爬取资源时间。

path：存储资源的路径。

host：爬取域名(一般用来拼接资源使用)。

url：爬取目标页面（这里由于爬取的对象，比较正规，所以码了，不过看路径的也就懂了）

然后就是启用配置驱动插件，设置必要的请求头，来获取页面内容了，同时创建本地存储目录。

关键代码

这里拿到页面内容后，使用插件格式化内容，并使用xpath获取目标数据源，基本就可以达到获取资源的目的了。

这里说明的一点。如果是常用的requests方式取获取，根本就拿不到play_url。所以这里也就采取了两种方式结合来获取资源了。

才用python不久也许有更好的方式。欢迎各路神仙指教。