城市计算:用大数据驱动智能城市@Tsinghua

2017-03-21  本文已影响171人  有马甲线的汗青

郑宇博士

俞院长

郑宇博士分享:

1.城市数据的感知

感知方法:人为感知---主动方法,传感器感知(固定感知—位置固定,移动感知)

遇到挑战:

拿到的数据是sample,采样数据和整体数据的差异;→

有限的传感器,拿到有限的数据;

数据缺失missing;

应用:eg,抢救

优化平均抢救时间,min化时间

车辆的合理调度。

管理:

时空数据,点数据和网络结构数据。

空间不变,时间不停变换的数据;多时空变换的数据(摩拜);轨迹数据

易购,多元,多模(文本,视频,语音)

时空数据特点:在不停变换且不能交叉;空间范围+时间范围;真正做云计算的时候,需要用很多种数据融合,混合式处理,有机关联;

数据结构不一样:

查询方式不一样:history:keywords,空间范围,时间范围,不能直接支持前两者。

数据融合之前,需要做好数据索引。

2.管理、计算

分布式计算环境结合—极大降低交互时间

3.数据分析和挖掘

多个数据融合一起,进行挖掘

以往的问题:

1,地理,图形,等等数据,时空数据对数据特性的要求不同。

2,多元数据的融合。

3,data minng,database的方法

4,简单静态挖掘→交互可视分析

多元数据融合的方法:

传统特征串联+

基于语义融合的方法

基于相似度的方法

eg,人们出行规律,反映出地段价值

排序不要出错,冗余特征权重小

迁移学习的问题

4.应用

做综合商业体价值评估,商铺选址,房子价值评估

location location location

房屋的价值:三个地段均可以量化。Location, (家里到最近的一个高速入口的路网距离时间)。

综合商业体的价值分析:上海世贸商业中心+海底捞

优化了人气:大众点评的数量,相对的反映了人气的兴旺与否。

5.深度学习DEEP LEARNING

深度学习方法:深度学习算法:

网格化,转化成图形化,再进化成热力图,加入影响因素,得出模型。

时空数据,与语音、图像的不同。

时空数据,有时间属性(时间距离,有层次)平滑性周期性趋势性

与普通的文本语义有很大不同

把数据分成网格,不同轨迹数据归属到同一个网格,转化成一个矩阵

很多数据,构成数据流stream

如何用:相邻数据,放入深入卷积网络,模拟平滑性,模拟周期性,模拟趋势性,三个数据作一个融合,分别有不同的权重系数,再与外部因素相融合,整体预测下一个状况。是整体预测。

空间是通过深度卷积网络抓住,经过多次卷积,空间相关性;

时空残差网络模型→当卷积神经网络很深的时候,不准的时候,这个就更准确。深度时空残差网络,在人流预测上有很大作用。和滴滴,摩拜调度等。人工智能在物流行业。

环境方面:

数据是非线性的,实时细度分析

同一点,有时间相关性,不同点有空间相关性

污染物,有物理过程和化学过程

空气质量,和雾霾不同,雾霾是天气原因,空气质量是多种原因决定的。

交通流量图,单位时间经过一个路段的数量

数据科学家:懂得行业问题,吸取其他人的经验,清楚他们失败的原因;懂得数据背后的insight;对各种模型清晰,可以组合;对云平台了解。站在云平台的角度上看数据,想问题,关联模型,解决行业问题→大数据。

数据分析师:有数据,只是分析。


互动环节:

1.针对环节问题,不同城市之间数据应用不能转移,但是有两个可以转移:数据和数据之间的关系可以转移;

2.如何找key features?各个feature的权重?

数据比特征重要,特征比模型重要。

对行业的了解,对数据的敏感性。

3.数据比较少,缺失?

从小做起,替代数据,借数据,滚雪球。

5.时空索取的方法,搜索空间大大降低,spark+分布式计算,并行。时空数据库的proming.

6.数据挖掘接着会在哪些行业得到应用?

7.如何培养算法思维?

如何确认研究方向?

来源于生活,来源于观察。避免思路和别人重复。

上一篇下一篇

猜你喜欢

热点阅读