Python小程序程序员

Python爬虫:高德地图信息(扬州市中学)

2018-10-19  本文已影响137人  末一哟

根据知乎专栏:爬虫从入门到精通中的相关内容,经过个人学习与改良,得到如下爬虫系列。


环境:python 3.6.4

系统:win 7

相关包:见程序


我个人觉得,BB半天不如有个程序来的实在,有了程序自己看,不懂得谷谷大佬,这是最好的学习方式,所以。

载入包、函数获取url、函数获取高德地图相关url 函数page加载、摩拜定位(这个没用到,本文中无视) 运行&结果(注释为摩拜定位运行程序,因为缺少数据库,所以无法得到结果)

这里稍微注释几句以便大家理解起来更容易(毕竟谁都觉得谁写的程序思维都很清奇):

1.缺少的库自己下,cmd下pip install +库名(前提是你装了pip,建议直接安装Anaconda3,省事不少)

2.load_url函数就是普通的requests.get的调用,pois是高德的一个字段名,具体的可以去高德API文档自己查看,截个图方便大家快速理解pois,这里如果直接print(z.text)会出来pois的所有属性和值,没必要,我们就看个学校名字就行了,所以选中z[‘name’]字段的内容打印即可

pois内容(不全)

3.ThreadPoolExecutor是多线程使用,加快获取url的速度嘛,max_workers不设置的话默认是“ cpu核数 * 5 ”,关于这个部分可以去最开始说的知乎专栏里去查看(异步加载),用两次就会了,python不就是一个入门简单的语言吗

4.需要着重说明一下 :param中的‘key’字的内容是需要自己创建的(你可不可以用我的我没试过,我不建议这么做,学一个东西就慢慢地刨根问底,这样才能挖的深学的多),创建很简单,给个链接自己看获取高德开发key

5.param中的page初始为空,配合merge_dicts函数一起使用即可得到所需page的url,这里page取1~50,是我随便取的,我也没看到底高德有多少页数据,你可以自己查看一下然后更改

6.packle保存数据

7.[239]的mobai直接忽视就行了,因为缺少数据库资源,这里的数据库用的mongo的,但现在mongo都变成云数据库了,参考的资料爬的时候还是下载的客户端版本,so这里,以后再说吧?


爬虫部分是做数据挖掘的基础,爬虫工程师、数据分析师、大数据工程师这一个个进阶就不多说了,一下触碰不到的香唇,那就从脚舔起来。


我们没能力发现知识,我们只是知识的寄生虫

上一篇下一篇

猜你喜欢

热点阅读