从百度百科中获取名人数据
2019-02-16 本文已影响3人
K同学啊
这一部分也是在项目完成后很久补上的博客,我只关键的几点做一下说明。
其实这一部分做起来也是挺简单的,找到百度百科的接口,通过这个接口来获取json数据,当然返回的json数据一定有我们不需要的数据,除去就好了。其中也不乏一些脏数据,回想起来当时用的方法还是比较暴力,直接用replace()、strip()之类的函数直接进行的处理,这样处理起来还是比较费时的,需要一个个的找到脏数据的类型,而且当时我也没有对数据进行一个预处理,这是我当时明显的不足吧。
在这部分,我遇到的第二个问题就是数据量比较大吧(做这个项目时还是菜鸟),18万条人名数据需要我一一进行抓取介绍,容易就服务器造成压力,爬虫被封也是正常的。当时是使用time.sleep()来进行休眠外加fake_useragent第三方库的运用。代理IP那会还用得不是很顺手。