Python专题人生明月共光辉

Scrapy+MongoDB爬取豆瓣《我不是药神》短评

2018-07-12  本文已影响276人  右哼哼丨左哼哼

框架入门类练手项目,Scrapy+MongoDB爬取豆瓣《我不是药神》短评
先看看词云成果图:


Python.jpg

数据库存储图:


image.png
由于豆瓣短评网页比较简单,且不存在动态加载的内容,我们下面就直接上代码。有一点需要注意的是,豆瓣短评的前几页不需要登录就可以看,但是后面的内容是是需要我们登录才能查看的,因此我们需要添加自己的cookie。

项目代码

注意:

请把COOKIES_ENABLED设置为 False,你可能觉得奇怪,为什么我们使用了cookie却需要把它设置为False,原因在于,我们直接把cookie放在了请求头里面,但是scrapy默认自己拥有一套处理cookie的中间件,当你把它设置为True的时候,两者会产生影响,从而请求失败,你可以自己尝试一下。那如果我执意要把他设置为True呢,难道就不能解决了么?当然是可以的,但是我们今天就不在深入的讨论这个问题,以后可以单独解释。

我们这里抓取评论数据是为了之后的分析所用。

你可以去github下载以上的代码和相应的评论数据。

github地址: https://github.com/cnkai/comment.git

声明:本文仅供学习交流所用。
参考链接:http://www.cnblogs.com/cnkai/p/7418330.html
大家如若有兴趣,欢迎朋友,可以加交流群:692-858-412一起学习
喜欢我的文章可以关注我哦,别忘了点个喜欢!

上一篇下一篇

猜你喜欢

热点阅读