时光深处的故事阡陌美文真情时光

爬取豆瓣近4000本书,爬虫告诉你,在热门标签下,大众都喜欢看什

2018-05-18  本文已影响750人  寻找不同的蜜蜂

信息的获取能力是当下大数据时代不可或缺的能力,一页页通过人工点击获取信息,似乎变的低效和枯燥乏味。

试想一下,如果你想知道当下哪几本小说最受欢迎,你会怎么做?

你可能会问度娘,让她告诉你,可是即使你知道了,但你就不好奇到底有多少人评论了这些书?

于是你可能会去翻豆瓣读书,里面去寻找对应的热门标题,然后一页页查看最热的评论人数和具体的内容。

虽然里面也有一些排序,但是你就不想可视化的知道,这些热门书在特定样本数量中的火热程度?

可能你会一页页翻,一页页找,或许,你能找到前3本最热门书。但是,如果是top10或20呢?如果你想知道更有趣的书名呢?如果你想知道其他标签呢?比如,科技,心理,人际关系等等。

当你翻页失去兴趣,翻到手抽筋时候,内心的烦躁和怒火急剧上升。“我为什么要找这,根本毫无意义,再见,不找了。”

大量的重复工作,让我们失去耐心和兴趣,以至于我们开始否定当时的好奇心是否有意义的时候,我们会放弃,否定当初的决定。

看似这件查找最热书目的事情毫无意义,但是确实如此吗?

我之前也觉得没啥意义,当我抓取到数据和将其可视化后,我发觉,原来数据可以这么玩,这么有趣。

我的解决方案:requests+beautifulsoup+wordcloud

1/ Requests

抓取网页html到本地,打印出来,看是否被抓取下来,为后续解析做准备。

爬取豆瓣近4000本书,爬虫告诉你,在热门标签下,大众都喜欢看什么书?

2/ BeautifulSoup

解析抓取下来的网页,然后通过CSS选择器选取想要内容对应的标签,然后打印出来看。刚开始很难说一次找准标签,多试几次就好了。如果还是没法正确输出,请求助老司机。最终,将输出内容取文本就好啦!

爬取豆瓣近4000本书,爬虫告诉你,在热门标签下,大众都喜欢看什么书?

3/ Wordcloud

将抓取到的信息,可视化为云图,从而找到最为热门的书名,是不是很有趣。

爬取豆瓣近4000本书,爬虫告诉你,在热门标签下,大众都喜欢看什么书?

下面是,通过爬取10个豆瓣图书标签(每个标签下前20页,共计爬取近4000多本)得到的最热的30本书,包含领域分别为,热门小说,名著,教育,科普,传记,心理,爱情,人际关系,创业和生活。

爬取豆瓣近4000本书,爬虫告诉你,在热门标签下,大众都喜欢看什么书?

下面是各自的词云图,可以明显的看出,在众多领域的图书中,受欢迎的书名变的极为醒目,一眼就可以看出来,最美的图书墙哦!爱读书的你,是不是已经蠢蠢欲动了呢!

1)热门小说

Top 3的小说的评论都达到了十几万条,极大的说明一个现象:大众对小说的热爱真的算是到了痴迷的地步。难怪有那么多人疯狂写小说,哈哈,需求太大!

热门小说

2)名著

百年孤独,红楼梦和简爱成为最热的名著。这些书可谓是经典。貌似自己一本也没读完过,有些惭愧。后面至少补一补吧!

名著

3)教育

窗边的小豆豆和亲爱的安德烈成为教育书籍中的两颗璀璨明珠,评论过6万。书名起的也很可爱和温馨。

教育

4)科普

人类简史成为当下科普书籍中的冠军,每当去书店都会看到它被放在很显眼的位置。捧着这本板砖,带你追溯人类发展,这是一件多么震撼的事情啊!

科普

5)传记

乔布斯传当之无愧成为传记类书籍的冠军,一个传奇人物的一生,会给我们带来很多启发和思考。下一个乔布斯,会是你吗?

传记

6)心理

天才在左,疯子在右以访谈录的形式记录精神病患者的生活。我想读后肯定很震撼吧!

心理

7)爱情

村上春树的大作,还是值得好好拜读一番,挪威的森林,略微伤感的爱情小说。你们看后有和感想呢?

爱情

8)人际关系

有网友说,非暴力沟通,其实,是一个本很好的讲人际的书,不要被题目带偏了!

人际关系

9)创业

从0到1不就是一个创新的过程嘛!这让我又想到了创新简史的根、域和维创新理论。

创业

10)生活

活着,这个词本身就给人带来无限的遐想和思考。我们活着,是为了更好的遇到最美的自己吧!

生活

这30本书中,您读过几本呢?

大数据推荐给你的书单是不是感觉很有份量呢?

上一篇下一篇

猜你喜欢

热点阅读