基于算法模型的出租车轨迹数据分析
本案所用的数据是获取自滴滴公司开放的2016年11月成都市二环局部区域的轨迹信息,主要目的是通过分析成都市的出租车轨迹数据以及订单数据,获取有关成都市社区结构划分、交通道路情况的信息,结合实际情况对分析结果做出解释,并在已有的分析结果的基础上对出行、出租车运营、城市规划等领域的问题提出针对性建议。
获取数据后,为了保证数据质量,做了缺失值、异常值、重复值以及不符合常理的错误记录的处理后得到了较高质量的分析数据样本
根据订单数据中上下客位置的经纬度信息做关于上下客位置点的分析。这里使用的热力图的形式来呈现,主要调整的参数是point和points,point表示的是地图初始化显示时的中心点,points是展示在热点图中的数据点的集合,数据点包括数据点的经纬度以及数据点的权重,在热力图中颜色由深到浅表示数据点的集中到稀疏,通过高亮的形式展示乘客集中的上客区域和下客区域。
工作日与休息日时城市中的人流量与流动规律会因为上班族是否上班而有所不同,以11月第一周的数据为例,绘制热力图,如下图所示:
(a)第一周工作日上客点热力图 (b)第一周周末上客点热力图 (c)第一周工作日下客点热力图 (d)第一周周末下客点热力图为了更详尽地展示每周7天的出行数据反映的出租车运营情况,统计一周内各天完成的行程数,如下图所示,其中每天的行程数是通过计算11月的数据的均值,从中可以看到,每天的行程数大致为194300-195100,整体浮动不大,其中周五与周六的行程数最多。
为了对数据做进一步解读,绘制其中星期三、星期五及星期六的各时间段的行程数图表,其中每个时间跨度为两小时。
11月2日星期四各时间段行程数 11月4日星期五各时间段行程数通过比较星期三、星期五和星期六各个时间段的行程数,可以发现这几天的不同时间段的行程数的变化规律是基本相似的。星期六的数据与其余两天的不同之处在于星期六的峰值是在18-20时这段时间内达到峰值,而其余两天则是在14-16时达到峰值。
为了找到上客热门区域,采用聚类算法与热力图可视化结合的方式。使用聚类算法是因为在位置数据中可以由经纬度表示,通过聚类可以将地理位置相近的位置点聚类到同一个簇中,得到的多个簇代表多个地理区域,其中包含位置点最多的几个簇就是需要找到的上客热门区域。
由于地图的数据点是圆形,并且呈现不规则分布,属于非凸数据集,所以采用的是DBSCAN算法,该算法可以对任意形状的稠密数据做具类,还可以在聚类的同时发现异常点。
通过聚类可以得到附近的数据点最多的位置是锦江区的春熙路、盐市口、督院街、天府广场区域,其次是东门大桥、合江亭区域,再少一些是青羊区的人民公园、汪家拐、少成区域。通过热力图的扩放找到上客点热力图中较为密集的区域,也就是上客热门区域。