python 通过网格划分的方法进行高德POI爬虫

2020-05-21 本文已影响0人吵吵人

思路：

查询POI分类名称及对应编码
分类代码一览表：https://wenku.baidu.com/view/fc0805ed51e2524de518964bcf84b9d528ea2c1f.html
对研究区域进行网格切分
设置请求参数（组合成一个完整的链接）
矩形搜索高德API参考文档：https://lbs.amap.com/api/webservice/guide/api/search#polygon
逐网格请求服务
解析文本内容并保存

代码：

import requests  # #http请求模块
import pandas as pd  # 数据分析包

# 存储企业分类名称和对应编码
codes = {
    '摩托车服务': '040000'
}

# 设置请求资源的URL
url1 = "https://restapi.amap.com/v3/place/polygon?key=f2fca64f70c9b50e5c7e0a3668c01161&types="
url2 = "&extensions=all&page="
url3 = "&polygon="

# 研究区域左上角的经纬度和网格的边长
leftLng = 119.979285
leftLat = 31.987759
widthLng = 0.0063
widthLat = 0.003

def getHTML(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()              # 状态检查是否成功
        r.encoding = r.apparent_encoding  # 从内容中分析出的响应内容编码方式
        print("Connected1")
        return r
    except:
        print("Wrong1")
        return ""

def Getdata():
    index = 1
    
    # 循环字典中的值，爬取不同种类的企业
    for key, value in codes.items():
        x = [["名称", "地址", "经度", "纬度"]]
        
        # 循环爬取每个网格：这里总共分了一万个格网
        for j in range(0, 100):
            starLng = round(leftLng + j * widthLng, 6)
            endLng = round(starLng + widthLng, 6)
            for k in range(0, 100):
                starLat = round(leftLat - k * widthLat, 6)
                endLat = round(starLat - widthLat, 6)
                locStr = str(starLng) + "," + str(starLat) + "|" + str(endLng) + "," + str(endLat)
                print(locStr)  
                if not index % 100:
                    print('爬取进展：第%d个网格' % index)
                index += 1
                
                # 判断每一个区域是否返回全部的POI信息，并将返回的信息储存在列表中
                for page in range(1, 50):                       # range函数到49
                    thisUrl = url1 + value + url2 + str(page) + url3 + locStr  # 一个完整的请求链接
                    if page == 49:
                        print("可能未爬取全部")  
                    try:
                        # 获取POI数据
                        data = getHTML(thisUrl)
                        # 转为json格式
                        s = data.json()
                        # 解析json格式
                        a = s["pois"]
                    except:
                        continue
                    # 若解析的JSON为空，即当前数据不够50页（即没有达到限制），返回
                    if len(a) == 0:
                        print(page)
                        break
                        
                    # 提取需要的属性信息
                    for i in range(0, len(a)):
                        d1 = a[i]["name"]
                        d2 = a[i]["address"]
                        d3 = a[i]["location"]
                        d4 = str(d3).split(',')
                        x.append([d1, d2, d4[0], d4[1]])
                        
        # 保存为CSV文件
        c = pd.DataFrame(x)  # 创建一个二维表
        fileName = "D:\\SF\\Test\\result\\" + key + ".csv"
        c.to_csv(fileName, encoding='utf-8-sig')


def main():
    print('Let ')
    Getdata()


main()

结果示例，可用Excel打开

python 通过网格划分的方法进行高德POI爬虫

猜你喜欢

热点阅读