从百度百科中获取名人数据

2019-02-16 本文已影响3人 K同学啊

这一部分也是在项目完成后很久补上的博客，我只关键的几点做一下说明。

其实这一部分做起来也是挺简单的，找到百度百科的接口，通过这个接口来获取json数据，当然返回的json数据一定有我们不需要的数据，除去就好了。其中也不乏一些脏数据，回想起来当时用的方法还是比较暴力，直接用replace()、strip()之类的函数直接进行的处理，这样处理起来还是比较费时的，需要一个个的找到脏数据的类型，而且当时我也没有对数据进行一个预处理，这是我当时明显的不足吧。

在这部分，我遇到的第二个问题就是数据量比较大吧（做这个项目时还是菜鸟），18万条人名数据需要我一一进行抓取介绍，容易就服务器造成压力，爬虫被封也是正常的。当时是使用time.sleep()来进行休眠外加fake_useragent第三方库的运用。代理IP那会还用得不是很顺手。

从百度百科中获取名人数据

猜你喜欢

热点阅读