百度指数爬虫|介绍篇

2020-05-13  本文已影响0人  DZQANN

写在前面

​ 前端时间写了几个爬虫,其中有一个是爬取百度指数。这是我第一次知道百度指数这个东西,以前我只是知道怎么用百度的。百度指数呢,大概长下面这个样子(用我最喜欢的歌手举例子):

image-20200507161438341

百度指数可以显示每一天有多少人搜索指定的关键词,而且可以自己选择PC端、移动端,可以自己选择不同的省份。而这次项目的需求呢,就是让我去爬取百度指数

需求

​ 这次的需求呢大概分为以下几点:

  1. 用户给出要爬取的关键词,以Excel的形式提供
  2. 爬取能爬取到的每一天、每一个省份、每一个关键词的PC端、移动端、以及PC+移动端的搜索数量
  3. 爬取结果以Excel的形式保存
  4. 提供界面,不可以只在命令行运行

演示示例

image image

​ 然后仔细看上面的滚动窗口你就可以发现,爬虫会先判断关键词是否被百度指数收录,然后会将收录的关键词重新提取出来,开始爬取搜索数量。当关键词过多的时候,爬虫会每10个关键词保存成一个Excel

​ 可以看到每一个关键词分3列,第一列是PC端,第二列是移动端,最后一列是PC+移动端。有趣的是可能2006年Angelababy、迪丽热巴他们还没出道呢,所以没有人搜索他们。然后第一个Sheet存放的是2011年以前的全国综合数据,之后每一个sheet会保存各个省市从2011年开始到爬虫那天的前一天为止的每一天的搜索数据。

写在最后

​ 其实这个爬虫还是挺有意思的,爬取的结果的分析价值也比较大,而且涉及到的Python的知识也比较全面。所以我就想把这个爬虫拿出来,分几期介绍一下。希望大家喜欢!

上一篇 下一篇

猜你喜欢

热点阅读