Python爬虫，用Python抓取头条视频内容，数据其实并没有

2018-11-15 本文已影响2人 1a076099f916

Python爬虫，用Python抓取头条视频内容，数据其实并没有藏那么深

综述

根据网站结构及数据类型，做出头条视频的爬虫，重点说明数据在网站的位置以及抓取办法
并介绍一个类似的网站，简单说明数据抓取办法

加小编Python学习群:813542856可以获取更加详细的Python学习教程和各类资料！

使用工具： python3.6 + pycharm + requests库 + re 库

Python爬虫，用Python抓取头条视频内容，数据其实并没有藏那么深

这次我们的目标网站，是ajax加载的数据，首先，打开网页后，直接用浏览器（火狐）自带的开发者工具，点击网络，然后下滑网页，点击xhr，找到json数据，可以看到大概有100条内容

Python爬虫，用Python抓取头条视频内容，数据其实并没有藏那么深

里面有每一个视频的相关信息，我们只需要取出每一个视频的url即可！然后在去看看详情页的情况

Python爬虫，用Python抓取头条视频内容，数据其实并没有藏那么深

非常简单的就找到了视频的真实地址！复制地址重新打开一个网页去验证一下，确认地址无误，那么就去源代码中看看，该地址是否存在吧

Python爬虫，用Python抓取头条视频内容，数据其实并没有藏那么深

很明显，这个网站并不是静态的网站，而且数据应该存放在js文件中，那么我们怎么得到它呢~？需要分析js文件还是用selenium呢？不要着急，偶然的情况下，发现了这个

Python爬虫，用Python抓取头条视频内容，数据其实并没有藏那么深

有没有发现，在url中的关键字，是存在于网页源代码中的，虽然不是完全一样，但是我们可以和前面的那个标签中内容，对比下

Python爬虫，用Python抓取头条视频内容，数据其实并没有藏那么深

可以判定，这里的值就是网页渲染后出现在html标签中的值，而且在源代码中它存在2个不同格式的视频地址！，这就很简单了，我们来写代码吧！

简单写了一下，直接用requests请求内容，然后用re匹配，取出目标url

Python爬虫，用Python抓取头条视频内容，数据其实并没有藏那么深

Python爬虫，用Python抓取头条视频内容，数据其实并没有藏那么深

其实还有一个网站和这种情况很像，那就是秒拍视频，但是如果你想看更多的视频的话，还是需要打开客户端，所以我们就简单的以一个视频为例，抓出它的真实地址！具体过程就不一一说明了，就直接看结果吧，先看目标网页

Python爬虫，用Python抓取头条视频内容，数据其实并没有藏那么深

用关键字在源代码中查找

Python爬虫，用Python抓取头条视频内容，数据其实并没有藏那么深

最终代码

Python爬虫，用Python抓取头条视频内容，数据其实并没有藏那么深

验证结果

Python爬虫，用Python抓取头条视频内容，数据其实并没有藏那么深

上述文章如有错误欢迎在留言区指出，如果这篇文章对你有用，点个赞，转个发如何？