[kaggle]DC比赛进程4

2016-11-19  本文已影响86人  HOHOOO

本次提交的个人观点:

  1. 对GIS的依赖程度 ,是否要接入postgresql进行GIS方面的计算(之前有一点点研究,并不深入);
  1. 关键的特征应该是trajectories轨迹方面的特征。在初期可以采用类似张洋在翻译中提到的geohash的方法(没找到和R相关的,倒是有个python包,谁帮忙研究下):类似的思想就是将地图切分成大量的小方块(高级一点会切成六边形,小方块的案例有:Uber和神州专车,没找到技术链接将地图切块,进行用车预测,从而动态调价;六边形的好像是高德,做地图上某个六边形区域点击,可以看到半小时、一小时、两小时的到达区域范围)切成块之后进行编码,这样可以将任意一条行程转化成为轨迹覆盖区域编码的序列,或者整个编码区域的稀疏矩阵。再简单点,之间使用起止点的编码作为特征进行预测也是可以接受的。
  2. 在上一步的基础上,可以进行一些OD方面提取特征,baidu出租车OD分析baidu出租车运营平台

一些还未想好是否能合理使用的点:

以下是我的方案:

  1. 在将原始数据计算平均车速度后,验证一些典型的特征验证:
  1. 对于轨迹的信息提取,倾向于使用geohash的方法,编码地图上的每一个小块。(能想到的另一种方法是GIS数据库,postgresql的使用),基于编码提取特征,将GIS特征变为数字特征作为输入参数;
    其他的特征还有:
  1. 模型,这部分现在谈好像纸上谈兵,但是否使用一些机器学习的平台可以提前考虑下,比如H2O;
  2. 测试,
  3. 提交测试结果,可以查看下被用来预测数据的样式;目前最高分0.22。

尽量能在月底提交一次结果吧,通过与结果的比对,不断迭代更新算法吧。

任务 完成日期 任务分发
上一篇 下一篇

猜你喜欢

热点阅读