百度指数爬虫|介绍篇

2020-05-13 本文已影响0人 DZQANN

写在前面

前端时间写了几个爬虫，其中有一个是爬取百度指数。这是我第一次知道百度指数这个东西，以前我只是知道怎么用百度的。百度指数呢，大概长下面这个样子(用我最喜欢的歌手举例子)：

image-20200507161438341

百度指数可以显示每一天有多少人搜索指定的关键词，而且可以自己选择PC端、移动端，可以自己选择不同的省份。而这次项目的需求呢，就是让我去爬取百度指数

需求

这次的需求呢大概分为以下几点：

用户给出要爬取的关键词，以Excel的形式提供
爬取能爬取到的每一天、每一个省份、每一个关键词的PC端、移动端、以及PC+移动端的搜索数量
爬取结果以Excel的形式保存
提供界面，不可以只在命令行运行

演示示例

首先打开程序，会看到下面的界面：
image-20200507162652218
点击选择文件，然后勾选要爬取的关键词的Excel，文件目录框会自动显示勾选的文件的路径。下面的滚动窗口会显示获得的要爬取的关键词列表：

image

点击开始爬虫，程序就开始工作了。当然，如果你想搜索百度指数，那么你必须先登录，而爬虫怎么让自己看起来是登录的状态呢？就是用Cookie。所以如果你没有Cookie或者Cookie过期了，那么你就需要重新输入Cookie

image

然后仔细看上面的滚动窗口你就可以发现，爬虫会先判断关键词是否被百度指数收录，然后会将收录的关键词重新提取出来，开始爬取搜索数量。当关键词过多的时候，爬虫会每10个关键词保存成一个Excel

Excel示例

可以看到每一个关键词分3列，第一列是PC端，第二列是移动端，最后一列是PC+移动端。有趣的是可能2006年Angelababy、迪丽热巴他们还没出道呢，所以没有人搜索他们。然后第一个Sheet存放的是2011年以前的全国综合数据，之后每一个sheet会保存各个省市从2011年开始到爬虫那天的前一天为止的每一天的搜索数据。

写在最后

其实这个爬虫还是挺有意思的，爬取的结果的分析价值也比较大，而且涉及到的Python的知识也比较全面。所以我就想把这个爬虫拿出来，分几期介绍一下。希望大家喜欢！

百度指数爬虫|介绍篇

写在前面

需求

演示示例

写在最后

猜你喜欢

热点阅读