AlphaGo 对智慧城市发展的启示及时空智能框架刍议
(原文已发表于12月《北京建设规划》专刊,首发于个人公众号“骞曰”,如需转载请扫码与本人联系)
骞曰 个人公众号
时空智能框架流程图1、引言
2016年初,AlphaGo的横空出世让各行业都震惊于人工智能技术的奇迹。2016年3月,AlphaGo以4∶1击败世界顶级棋手职业九段李世石。这标志着深度强化学习作为一种全新的机器学习算法,已经能够在复杂的棋类博弈游戏中达到匹敌人类的水平。谷歌公司的DeepMind人工智能研究团队于2016年1月在《自然》杂志发表的文章中,介绍了其将深度强化学习方法和蒙特卡罗树搜索结合,提升了对棋局估计的准确度的算法。此前,DeepMind于2015年1月在《自然》杂志提出深度Q网络,在Atari视频游戏上取得了突破性的成果:在49个视频游戏中的得分均超过人类的高级玩家。目前,人工智能已经在星际争霸2等即时战略游戏中获得与人类选手相近的成绩,而其中涉及的非完全信息博弈环境下的资源规划与动态决策已经非常类似于现代智慧城市设计、建设与运维问题。
伴随着移动互联网、物联网等新一代ICT技术的快速发展,智慧城市在全球快速普及与成熟1,2015年颁布的《美国创新新战略》中2,奥巴马也将智慧城市列入九大战略领域。在新型城镇化发展推动下,中国智慧城市建设已经在全国范围信息化、电子政务和公共服务领域取得令人瞩目的成果,但是存在“建设多,亮点少”的问题3,大数据虽然已经成为智慧城市建设的重要技术手段4,但是对于人工智能技术却常被忽视5,缺乏有说服力的城市智能应用也延缓了现有智慧城市应用中“重硬件,轻软件”“数据孤岛”等问题的解决。所以对AlphaGo等新型人工智能成功案例的研究对智慧城市建设中信息化成果的深度挖掘与灵活服务,从偏重采集与展示的数据化向感知、认知与洞察的智能化发展有重要借鉴意义。
2、AlphaGo及新型人工智能技术概述
计算机围棋软件从20世纪60年代创立至今,一直是人工智能领域的巨大挑战,而AlphaGo的巨大成功,来源于DeepMind团队打破了传统学术界设计类人智能学习算法的桎梏,将具有感知能力的深度学习和具有决策能力的强化学习紧密结合在一起,构成深度强化学习算法。而这类新型人工智能方法以其超越人类想象的性能震撼了学术界和社会各界。
2.1、深度强化学习
强化学习是受到生物能够有效适应环境的启发,以试错的机制与环境进行交互,通过最大化累积奖赏的方式来学习到最优策略。深度学习发源于2006年Hinton在《科学》杂志上发表的一篇论文,他通过自动提取原始数据的层级特征表示,来建立输入数据与输出数据之间复杂的函数映射关系,从而解决人工神经网络因为梯度弥散问题的困扰和硬件资源的限制,而一直无法大规模应用的问题。
从现代人工智能的角度来看,深度学习具有较强的感知能力,但是缺乏一定的决策能力;而强化学习具有决策能力,对感知问题束手无策。因此,将两者结合起来,优势互补,为复杂系统的感知决策问题提供了解决思路。
图1 深度强化学习框架在高级人工智能领域,感知和决策能力都是衡量智能的指标。强化学习在策略选择的理论和算法方面,已经取得了很大的进步。其中,大部分成功的强化学习应用方案,依赖于人工特征的选取,然而学习结果的好坏较高程度地取决于特征选取的质量。深度强化学习,便是利用深度学习直接从原始的数据中提取高水平特征,从而降低强化学习对人工监督的依赖,优化决策的准确性与应变性。
2.2、AlphaGo的学习与对弈策略
AlphaGo充分利用了深度强化学习在感知与决策中的优势,其主要流程包括线下学习与在线对弈两部分(图2)。
其一,线下学习。首先,基于棋圣堂围棋服务器上3000万个专业棋手对弈棋谱的落子数据,首先针对局部特征匹配结合线性回归训练生成快速走子策略网络,在牺牲一定精度前提下极大提升走棋效率。其次,基于深度学习,得到一个初步策略网络,来预测棋手的落子情况,并通过自我对弈的方式,利用强化学习对初级策略网络进一步优化,进一步提升策略网络的胜率。而自我对弈生成的棋谱可以根据最终胜负结果学习训练生成价值网络,用于评估棋局态势,即最终胜负概率。
其二,线上对弈。充分利用线下学习生成的策略网络和估值网络的学习成果,针对每一步走棋,首先通过预处理提取特征,随后从搜索树根节点出发,根据策略网络计算不同落子位置权重,然后利用蒙特卡洛树搜索方法,结合快速走棋策略网络(自我对弈至局终)和价值网络(局势判断),进行加权混合,生成评估得分,并将此结果反馈更新落子权重。反复进行搜索树遍历,最终选择从根节点出发访问最多的路径落子。
围棋因为复杂的落子选择和庞大的搜索空间在人工智能领域具有显著的代表性,通过AlphaGo成功经验可见,AlphaGo的核心在于通过深度学习生成估值网络评估局面以减小搜索深度,利用通过监督学习和强化学习,生成和优化策略网络降低搜索宽度,使搜索效率得到大幅提升,胜率估算也更加精确。相比起传统“背棋谱”的基于规则的计算机围棋,基于深度强化学习的AlphaGo可以自动提取棋谱局面特征,并将其有效地应用到决策过程中,极大增强了计算机围棋的自学习能力。所以,可以说深度强化学习是AlphaGo能够感知围棋局势和优化落子策略的核心。
图2 AlphaGo原理图(参考:http://www.kddchina.org/#/Content/alphago)3、面向智慧城市的时空智能框架
3.1、AlphaGo对智慧城市的启示
与计算机围棋需要解决的问题相似,智慧城市的设计、建设与管理过程中,态势感知与综合决策也是至关重要的两个要素。从城市规划设计伊始,就需要从跨领域、多尺度、多时相的海量数据中,综合提取生成对城市中人口、经济、交通和能源等不同维度的格局态势认知,以及一系列应对措施。不仅需要在建设和管理过程对策略的执行,也是根据环境的变化和管理对象(人、地、事、物、情)的反馈,对规划设计阶段认知局面态势的再认知和策略的修订优化。所以,AlphaGo所涉及的一系列技术思路对智慧城市发展的价值是毋庸置疑的。
目前,城市大数据的发展已经取得了很大进步7,8,涌现出社会感知9等从社交媒体新数据中感知城市态势的新型方法,以及元胞自动机、基于个体建模等城市精细化模拟与评估方法。但是,受限于数据和城市管理模式现状,现有研究方法在态势感知和策略选择上相对割裂,多在时间片段和局部区域前提下展开研究。同时,类似“自我对弈”的对既有知识的迭代精化方法使用并不充分,而这种“自学习”方法在AlphaGo身上是一大亮点,效果出人意料得好。此外,也缺乏融合线下策略训练和在线策略执行反馈的一体化方法研究。而这正是城市智能化发展的重要方向。所以,目前的城市大数据技术发展需要向AlphaGo学习。
我们也必须看到,深度强化学习为代表的现代人工智能,虽然已经在围棋和游戏领域获得成功,但是离直接解决城市问题还有很大差距,主要问题表现如下。
第一,“冷启动”知识的缺乏。受惠于围棋界长期积累的3000万优质棋谱,AlphaGo实现了训练的“冷启动”,在此基础上,结合总数上亿次自我对弈和在线对弈,才在数年内实现了人工智能的快速成长。即便如此,也有研究认为,在整个训练数据集中,低质量的样本占据了绝大多数,这是导致AlphaGo第四盘失利于李世石的原因之一。相比围棋界,城市历史数据无论总量、质量和规范性都远远不足,这导致面向智慧城市的人工智能无法形成可靠的冷启动,更难以通过“自我演化”学习得到优质知识。智慧城市势必要探索另一套方法,一方面充分融合利用既有多源数据成果,另一方面不能硬搬AlphaGo以非监督学习为主的模式,需要结合协同计算,融合优质专家知识,强调人的参与。
第二,从完全信息博弈到非完全信息博弈,AlphaGo只是解决了二人零和完全信息博弈的最优决策问题。棋谱数据可以完全获取,知识能够自动表达。但是智慧城市中不仅存在数据公开不完全的“陈年老病”,还有大量隐性知识和尚无成熟方法获取的“数据死角”。这些因素都导致面向智慧城市的人工智能方法,只能以非完全信息博弈为前提。而此问题正是目前国际上的研究前沿,例如采用强化学习等方法,训练计算机进行星际争霸等即时战略游戏10,相信假以时日,相关理论与方法必将逐渐清晰。
综上所述,智慧城市发展不能忽视AlphaGo的成功所代表的智能化发展大趋势,亟需进行理解、模仿、创新的学习过程,既要充分学习其对感知与决策一体化融合的精髓,又不浪费现有智慧城市在数据积累、方法研究和系统建设上的良好积累。本文从智慧城市中重要的共性技术——地理信息系统11出发,提出时空智能框架,作为城市向智能化发展的启发性工作。
3.2、时空智能框架刍议
时空智能框架,是探索和分析地理现象的格局形成、演变过程、知识发现、策略制订、评估与执行跟踪的有效工具,是智慧城市智能化发展的方向,这要求技术体系不仅需要充分利用传统地理信息系统表达、管理和分析静态空间信息的能力,更需要提升随着时间变化的、复杂的动态行为和过程模拟,以及有效的策略评估与跟踪能力。 在既有地理信息数据、功能与应用建设基础上,结合城市大数据的“新数据、新方法与新环境”的新发展,时空智能框架应在四个方向(图3)延伸强化功能,即地理建模、地理监测、地理设计与地理控制。
图3 时空智能框架流程图第一,地理建模。采用BIM建模、遥感和无人机倾斜摄影技术,实现快速数据采集和三维建模。采用语义本体、时空建模等方式,将建筑物、基础设施、古树植被、人群等实体,采用规范模型转化为信息系统中的数据。此外,也包括基于元胞自动机、深度学习等分析挖掘技术实现领域知识的数学建模。
第二,地理监测。采用物联网(RFID、电子票务、视频监控、建筑形变检测)、巡检移动设备等技术手段,对城市状态进行实时或者定时的数据采集,并采用一定分析手段从数据中提取城市状态信息。
第三,地理设计。根据景区发展需求,基于地理建模基础数据与检测状态数据,采用建筑信息建模(BIM)和三维模型设计等技术,对城市的建设进行设计与施工管理。
第四,地理控制。根据城市日常管理、应急预案规范,基于地理监测获取的城市状态,实现情景分析等景区的管理辅助决策,并采用电子大屏、终端广播、移动APP等多种模式,实现对城市管理工作人员、公众及各类控制器(水、电、传感器)的管理控制。 时空智能框架是动态的、自反馈持续发展的信息同化生态系统。围绕着城市的日常运转,地理设计通过规划设计、情景模拟,形成城市发展的目标参考值,地理控制利用直接控制器(阀门开关、无人机指令)与间接控制器(公告、广播、城管系统),将控制指令输入城市地理系统,进而改造现实世界,其结果在地理监测中常态化或应急化地通过传感器进行采集,形成系统测量输出,并计算与目标参考值的差距,进一步精化城市模型,调整时空智能框架中的地理设计、地理控制、地理建模与地理监测流程的科学性与有效性。 通过借鉴学习AlphaGo的成功经验,时空智能框架的使用流程应该包含线下知识学习和线上准实时运行管理两个部分。
图4 时空智能框架流程图一是线下知识学习。综合采用历史城市数据、结合地理监测采集到的各类对地观测、物联网等数据,地理建模形成初步空间信息模型,通过时序数据和反复模拟评估形成策略模型(策略函数或者策略网络)。通过云平台,在过程中融入专家知识进行协同打分和情景选择,从历史时序变化和反复模拟的数据中提取估值模型(策略函数或者策略网络)。
二是线上运行管理。可分为四个阶段:首先通过持续地理监测和快速建模侦测城市中发现的各类自然环境和社会活动出现问题,随后根据线下学习获取的策略模型选择可能的相应策略,并对每个策略进行不同空间和时间尺度的多轮迭代模拟与评估,最终形成受限最优策略(在给定计算时间、资源和预设模型前提下的最优解),采用直接控制或者监督执行等方法执行相关策略,进行重点持续监测,并将监测结果反馈线下知识学习系统优化现有策略和估值网络。 时空智能框架是对AlphaGo的核心技术与运行流程在以地理信息技术为基础的智慧城市中的借鉴,虽然流程中尚有很多具体关键技术有待突破,但是基本框架单元目前都已有相应的算法和系统正在运行(例如以及已融入了人工智能的遥感分类技术,后续需将计算结果从数据层提升为知识层)。时空智能框架虽然不是通向智慧城市的唯一道路,但其在当前最成功的人工智能产品AlphaGo框架上借鉴设计,所以对当前的城市信息化建设具有现实的启发价值。
4、总结与展望
本文从AlphaGo的深度强化学习关键技术和运行流程出发,总结出其在高度融合感知和策略上的技巧对智慧城市发展的巨大价值,并从智慧城市共性技术——地理信息系统出发,初步提出时空智能框架的功能与流程,对智慧城市建设下一阶段在智能化上的提升进行启发。 在面向智慧城市的时空智能的未来发展中,下列重要问题无法回避。
一是可解释性问题带来的普及策略问题。Davide Castelvecchi在《自然》杂志上提出,目前以深度学习为代表的人工智能存在黑箱现象,会导致其在重要领域应用的困难,这一点在智慧城市这一不可避免跨领域沟通和一把手决策的建设过程会很突出12。所以,需要一面寻找有效的解释手段(利用可视化等新技术),同时在可以率先使用人工智能的领域做出令人信服的案例提升方法的接受度。
二是人工智能与人的伦理关系。在智慧城市运行中不可避免地会出现机器与人在权威性、工作效率上的冲突。从目前技术的角度看,计算机毫无疑问在机械性,甚至是大部分低智能任务上远胜人类,但是在深度强化学习过程中无法脱离人,例如在AlphaGo的学习过程中不断在弈城与全球围棋手对弈,这些少数的高质量的对弈对于AlphaGo的棋力增强远高于大量的自我对局。所以,智慧城市建设管理过程中有经验的城市管理者不可或缺,只有良好交互学习训练才能获得良好的认知模型,人工智能只能带来更多优秀的城市设计、管理和创造者。