KDD Cup2020强化学习挑战赛开赛

2020-04-03  本文已影响0人  小小何先生

  4月3日,由滴滴主办的KDD Cup 2020强化学习挑战赛正式开赛,邀请全球算法高手共同挑战共享出行领域优化难题。总奖金达30000美金。而最终优胜团队奖项会在 KDD2020大会上正式颁发并进行成果展示。

  滴滴在强化学习领域探索已久,并成功将其用于派单、调度、运营等多种场景。此前滴滴AI Labs对网约车派单问题进行半马尔可夫过程建模,提出基于强化学习的泛化决策迭代框架,创新有效地结合了深度强化学习,时间差学习和传统组合优化方法,在确保乘客出行体验的同时进一步提升司机的收入。这一基于强化学习的网约车派单解决方案获得国际运筹学领域的顶级实践奖项2019年度瓦格纳运筹学杰出实践奖(Daniel H. Wagner Prize)。此次滴滴主办KDD Cup 强化学习挑战赛,也希望吸引、促进全球算法高手在真实业务场景中进一步探索强化学习发展和在不同环境和条件下的应用落地,激励更多创新。

KDD Cup 2020

KDD介绍

  KDD Cup全称为国际知识发现和数据挖掘竞赛,是由ACM (Association for Computing Machinery )的数据挖掘及知识发现专委会(SIGKDD)主办的数据挖掘研究领域的国际顶级赛事。KDD的英文全称是Knowledge Discovery and Data Mining,即知识发现与数据挖掘,从1997年开始,由ACM协会SIGKDD分会每年举办一次,目前是数据挖掘领域最有影响力的赛事。

  数据挖掘是一个较新的交叉学科,随着海量数据近年来在各个行业的涌现,发挥了越来越大的推动作用,受到了广泛的关注。全球的华人学者在这一研究领域扮演着举足轻重的角色。国内也逐步孕育出了一支庞大的数据挖掘研究及开发队伍,并且在最近几年的KDD年会上有出色的表现。

  KDD Cup同时面向企业界和学术界,云集了世界数据挖掘界的顶尖专家、学者、工程师、学生等参加,通过竞赛,为数据挖掘从业者们提供了一个学术交流和研究成果展示的理想场所。KDD Cup历年的比赛题取自不同的挖掘领域,并都有很强的应用背景。KDD Cup的获胜队伍,将被邀请在当年举办的ACM SIGKDD Conference国际会议上提交论文并作技术报告,这些技术推动了数据挖掘行业不断向前发展。

ACM介绍

  ACM(Association for Computing Machinery )美国计算机协会是一个世界性的计算机专业组织,创立于1947年,是世界上影响力最强的科学性及教育性计算机组织。ACM每年都出版大量计算机科学的高水平专门期刊,并在各项计算机专业领域都有分会,称为SIG(Special Interest Group)。ACM就像一个伞状的组织,为其所有的成员提供信息,包括最新的尖端科学的发展,从理论思想到应用的转换,提供交换信息的机会。正象ACM建立时的初衷,它仍一直保持着它的发展“信息技术”的目标,ACM成为一个永久的更新最新信息领域的源泉。ACM颁发“图灵奖”给计算机领域做出杰出贡献的人士。该奖项被称为计算机领域的诺贝尔奖。

SIGKDD介绍

  KDD Cup的主办方是SIGKDD是ACM的数据挖掘分会,其全称为ACM Special Interest Group on Knowledge Discovery and Data Mining,SIGKDD是国际数据挖掘界最著名的组织,其中KDD(Knowledge Discovery and Data Mining,知识发现与数据挖掘)一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议(IJCAI)上,由Piatetsky Sharpiro正式提出;1989-1994年间美国人工智能协会共举办了4届KDD国际专题讨论会(89、91、93、94)。1995年,国际KDD组委把专题讨论会更名为国际会议,并在加拿大蒙特利尔召开了第1届KDD国际学术会议,以后每年召开一次。1998年,ACM成立了KDD特殊兴趣组SIGKDD,于1999年第五届开始组织KDD学术会议。由于KDD的学科交叉性和广泛应用性,吸引了来自统计、机器学习、数据库、互联网、生物信息学、多媒体、自然语言处理、人机交互、社交网络、高性能计算及大数据挖掘等众多领域的专家、学者,KDD Cup的参赛队伍、Conference的投稿量呈现逐年增加的趋势,其行业影响力也越来越大。

KDD Cup 2020 介绍

KDD Cup 2020

  随着智能手机在我们日常生活中的普及,按需出行(MoD)或网约车平台已成为一种可行的解决方案,可以提供更及时和更个性化的运输服务。这样的平台包括滴滴、优步和Lyft。这些平台可以把潜在的出行需求与合适的司机联系起来,从而更有效地利用空置车辆,满足日益增长的运输需求。高效率的按需出行系统可以为司机和乘客提供更好的用户体验:司机可以通过减少空转时间获得更高的收入,乘客等待时间会更短,满意度也会更高。

  按需出行系统的效率取决于时空中供需分布的协调程度。如果想要调整供给分布来更好地协调需求,从而优化运营效率,有两个重要的问题:车辆调度(vehicle repositioning)和订单分配(order dispatching)。订单分配负责把空闲的车辆分配给等待中的出行订单,并把乘客(和司机)运输到订单终点。车辆调度是一种更主动的策略,可以把闲置的车辆部署到预计未来会产生需求的特定位置。

比赛任务

  比赛参赛者需要同时解决按需出行平台上订单分配(order dispatching)和车辆调度(vehicle repositioning)问题。参赛团队可以解决这两个问题或其中之一。参赛者的算法将在一个模拟出行平台环境中进行评估。

比赛环境

  测试环境中有所有车辆和出行订单的状态。每辆车同时只能为一个订单提供服务,即不考虑拼车。订单分配算法可以根据车辆和订单的状态,把闲置车辆分配给等待中的订单。车辆和订单都可以处于未被分配的状态。测试环境每两秒会调用一次订单分配算法并执行分配任务。被指派的车辆会根据分派指引接到订单乘客,并运输到目的地。如果某个订单没有在当前时间窗口内匹配到车辆,会被认为丢失。如果等待的时间过长,乘客可以取消订单。在乘客下车后,司机和车辆重新进入空置状态。在这种状态下,司机可以接受订单匹配。

  参赛者还可以在测试环境中控制一组匿名车辆(10辆)的重新定位。如果车辆的空置时间超过L=5分钟的阈值,就有资格接受调度。测试环境会定期向调度算法发送选中车组内可用车辆的状态信息,而调度算法会让司机把车开到某个特定的目的地。如果司机即将在当前位置附近逗留,他们会停留L分钟,直到另一个重定位请求被触发。在选中车组之外的车辆会依据一组通用转移概率完成空置移动。被重新定位的车辆的沿球面(也就是大圆距离上的)速度被设置为三米每秒。

任务1:订单分配

  参赛团队会设计开发算法来指定在2秒窗口内的订单-司机匹配。在这个窗口内的所有未接订单和空闲车辆的状态信息会被传给算法。此算法模块会在一天模拟中的每个窗口被调用。评估模拟会跑多天,日均司机总收入(按奖励单元计算)会作为本任务的得分。

任务2:车辆调度

  参赛团队会设计开发调度算法给一小部分(10辆)事先设定的车辆。这些车辆的身份对于调度算法是未知的,所以调度算法不应依赖于调度车辆的身份。这些车辆在连续空闲5分钟后,会接受调度。模拟环境周期性的调用调度算法来指引这些空闲司机开往指定目的地。本任务的得分计算为受调度车辆司机的人均收入效率(单位时间的奖励单元收入)。

  参赛团队的算法将在模拟环境中被评估分数,但参赛者无法访问模拟环境。参赛团队可以选择同时开发两个算法或其中的一个算法。(比赛组织者会提供一个分数较低的样例代码。)

  比赛的两个任务策略有相关性(即在同一个环境中测试),但是仍然是非常不同的任务,所以只专注一个任务并一定显著影像另一任务的得分。

  本次比赛的设置贴近真实的业务应用场景。而在真实业务场景中,因为操作和财务上的风险,所以通常不可能直接在生产系统中直接训练模型,探索数据。不过,历史操作记录通常可以提供充足的数据。我们可以搭建模拟器来评估各种算法,但很难照顾显示生产系统中的所有细节。

参考

上一篇下一篇

猜你喜欢

热点阅读