爬取豆瓣近4000本书,爬虫告诉你,在热门标签下,大众都喜欢看什
信息的获取能力是当下大数据时代不可或缺的能力,一页页通过人工点击获取信息,似乎变的低效和枯燥乏味。
试想一下,如果你想知道当下哪几本小说最受欢迎,你会怎么做?
你可能会问度娘,让她告诉你,可是即使你知道了,但你就不好奇到底有多少人评论了这些书?
于是你可能会去翻豆瓣读书,里面去寻找对应的热门标题,然后一页页查看最热的评论人数和具体的内容。
虽然里面也有一些排序,但是你就不想可视化的知道,这些热门书在特定样本数量中的火热程度?
可能你会一页页翻,一页页找,或许,你能找到前3本最热门书。但是,如果是top10或20呢?如果你想知道更有趣的书名呢?如果你想知道其他标签呢?比如,科技,心理,人际关系等等。
当你翻页失去兴趣,翻到手抽筋时候,内心的烦躁和怒火急剧上升。“我为什么要找这,根本毫无意义,再见,不找了。”
大量的重复工作,让我们失去耐心和兴趣,以至于我们开始否定当时的好奇心是否有意义的时候,我们会放弃,否定当初的决定。
看似这件查找最热书目的事情毫无意义,但是确实如此吗?
我之前也觉得没啥意义,当我抓取到数据和将其可视化后,我发觉,原来数据可以这么玩,这么有趣。
我的解决方案:requests+beautifulsoup+wordcloud
1/ Requests
抓取网页html到本地,打印出来,看是否被抓取下来,为后续解析做准备。
爬取豆瓣近4000本书,爬虫告诉你,在热门标签下,大众都喜欢看什么书?2/ BeautifulSoup
解析抓取下来的网页,然后通过CSS选择器选取想要内容对应的标签,然后打印出来看。刚开始很难说一次找准标签,多试几次就好了。如果还是没法正确输出,请求助老司机。最终,将输出内容取文本就好啦!
爬取豆瓣近4000本书,爬虫告诉你,在热门标签下,大众都喜欢看什么书?3/ Wordcloud
将抓取到的信息,可视化为云图,从而找到最为热门的书名,是不是很有趣。
爬取豆瓣近4000本书,爬虫告诉你,在热门标签下,大众都喜欢看什么书?下面是,通过爬取10个豆瓣图书标签(每个标签下前20页,共计爬取近4000多本)得到的最热的30本书,包含领域分别为,热门小说,名著,教育,科普,传记,心理,爱情,人际关系,创业和生活。
爬取豆瓣近4000本书,爬虫告诉你,在热门标签下,大众都喜欢看什么书?下面是各自的词云图,可以明显的看出,在众多领域的图书中,受欢迎的书名变的极为醒目,一眼就可以看出来,最美的图书墙哦!爱读书的你,是不是已经蠢蠢欲动了呢!
1)热门小说
Top 3的小说的评论都达到了十几万条,极大的说明一个现象:大众对小说的热爱真的算是到了痴迷的地步。难怪有那么多人疯狂写小说,哈哈,需求太大!
热门小说2)名著
百年孤独,红楼梦和简爱成为最热的名著。这些书可谓是经典。貌似自己一本也没读完过,有些惭愧。后面至少补一补吧!
名著3)教育
窗边的小豆豆和亲爱的安德烈成为教育书籍中的两颗璀璨明珠,评论过6万。书名起的也很可爱和温馨。
教育4)科普
人类简史成为当下科普书籍中的冠军,每当去书店都会看到它被放在很显眼的位置。捧着这本板砖,带你追溯人类发展,这是一件多么震撼的事情啊!
科普5)传记
乔布斯传当之无愧成为传记类书籍的冠军,一个传奇人物的一生,会给我们带来很多启发和思考。下一个乔布斯,会是你吗?
传记6)心理
天才在左,疯子在右以访谈录的形式记录精神病患者的生活。我想读后肯定很震撼吧!
心理7)爱情
村上春树的大作,还是值得好好拜读一番,挪威的森林,略微伤感的爱情小说。你们看后有和感想呢?
爱情8)人际关系
有网友说,非暴力沟通,其实,是一个本很好的讲人际的书,不要被题目带偏了!
人际关系9)创业
从0到1不就是一个创新的过程嘛!这让我又想到了创新简史的根、域和维创新理论。
创业10)生活
活着,这个词本身就给人带来无限的遐想和思考。我们活着,是为了更好的遇到最美的自己吧!
生活这30本书中,您读过几本呢?
大数据推荐给你的书单是不是感觉很有份量呢?