Scrapy爬简书30日热门 —— 总是套路留人心

2017-04-04 本文已影响557人 Wakingup88688

Scrapy 第一篇：单层次页面爬取 | 结巴分词

最近刚接触Scrapy基础，不太适应（主要是各种设置和之前不太一样）。不过其分块思维吸引人，编写逻辑清晰，抓取速度也快。

今天爬了简书30天热门的标题，简单做了个词频统计（想看分析的直接跳到后面吧~）
过程比较简单就不详细叙述。

一、记录一下出现的问题

1、 首先是Scrapy出现Crawled (403）

猜想可能是爬虫被发现了，改了下User_agent可以运行

Scrapy爬虫防止被"ban"的几种方法：
（下面这篇博文讲得很透彻）
http://www.cnblogs.com/rwxwsblog/p/4575894.html?utm_source=tuicool&utm_medium=referral

2、其次是jieba分词这一块出了问题

查了资料终于解决，原来是.pyc文件问题。
脚本每次运行时均会生成.pyc文件；在已经生成.pyc文件的情况下，若代码不更新，运行时依旧会走pyc。

所以解决办法就是要删除jieba库里面的.pyc文件，重新运行代码。同时命名脚本时，不要与py预留字、模块名等相同。对其它库亦是一样的。

3、然后做词云图的过程
最先用的是tagxedo(http://www.tagxedo.com/app.html) 结果上传字体的时候插件崩溃了，不知道什么原因。最初还以为是字体太了上传不了，换成小的也是不行。然后又重装了Silverlight,又崩了。又以为是权限的问题，改了一通，木得用。
（难办，求有经验的盆友支支招~）