大数据开发流程及应用方向
大数据的应用范围非常广,从目前来看,效果比较好的有零售、交通、金融和物流这些行业。甚至包括去年两会提出的精准扶贫,也可以借助大数据的方式来推动,确保把政策落到实处,不留死角。
01
正如上一篇谈到,大数据是各行各业创新驱动的底层支撑。以智能交通为例,这是滴滴出行在全国300多个城市采集的运营数据,全天24小时,每一个时间段的车辆调度情况都呈现出来。我特地选了一个时间点,下午将近6点的晚高峰时段。
基本上重点城市在晚高峰的时候都是一片红海,城市交通的压力非常大。这也是全世界各国的通病,每一个国家的交通部门,都想解决这个难题。但又不可能无限制的架桥修路和建地铁,只能在现有的基础之上,通过技术手段来疏导交通,提高城市的通行效率,节约人们每天花在路上的时间。
而滴滴这样的平台,可以一定程度上缓解这个问题。最近一年,滴滴似乎有些麻烦,负面新闻有点多。一方面,很多司机边用滴滴接单挣钱,边骂滴滴是无良奸商;另一方面,美团也切入了这个市场,虽然目前所占的市场份额还很小,但已经让滴滴面临着前所未有的压力。
而作为普通老百姓,不太明白滴滴以后到底靠什么赚钱,难道仅仅是跟司机之间那一点分成吗?这几年下来,滴滴已经砸下去数百亿资金。到目前为止,还没有实现全面盈利,一直处在持续投入和亏损的状态。但为什么在这种情况下,还有大量的资本投给滴滴。事实上,滴滴这个平台的价值,远比大家想象中要大,因为它撬动的是出行这个无比巨大的市场。尤其在人工智能和大数据的时代,滴滴今天所做的事情,充其量只是万里长征刚走了几步。关于滴滴的价值和未来的走向,在后面的篇章里会深入分析,这里就先不展开。
滴滴这样的平台,最宝贵的资产、最核心的竞争力,就是这几年下来所累积的运营数据和调度经验,而且滴滴在数据开发方面确实做得不错。
互联网巨头具有天然的大数据基因,而对于传统行业,数据资产却是是短板。具体表现在以下几个方面:
· 数据思维:数据意识较弱,人才储备不足
· 数据采集:数据积累时间长,但质量不佳
· 数据开发:应用场景少,缺乏业务突破点
· 数据应用:不会造势,缺少应用成功案例
· 数据共享:数据不统一,且整体协调性差
至于企业大数据应用的方向,可以从下面这几点着手:
· 产品研发:数据反馈与产品定位
· 用户画像:消费者心理及行为分析
· 精准营销:痛点捕捉与需求触达
· 风险管控:数据监测与风险预警
· 运营效率:智能化和精细化管理
· 创新服务:消费者个性化需求满足
02
接下来看看数据开发的流程:数据开发总共分为六个节点,从数据接入、整合,到数据处理、分析,最后通过可视化进行数据呈现。
怎么理解数据开发的流程,打个比方吧。假如今天我要请朋友们吃饭,为了表示诚意,不想去饭店,就在家里给大家做一桌子好菜。我首先得去菜市场买菜,因为客人比较多,得买一大堆菜回来。这些菜可以理解为数据源,也就是所谓的数据接入。菜买回来之后,得分门别类摆放好,哪些是肉类、瓜果,哪些是海鲜、蔬菜,这就相当于数据整合,建立自己的数据仓库。然后下一步,还得把这些菜洗干净,把烂掉的菜叶子摘掉,把该切的瓜果切好,把鱼鳞刮掉,开膛破肚,这个过程属于数据处理,或者叫做数据清洗。接下来,还得琢磨一下大家的口味。既然请客吃饭,就得让大家吃好,吃得高兴。怎么样才能抓住每个人的味蕾,也许是基于以往对大家饮食习惯的了解,或者掌握了大家之前外出就餐的消费记录,从而判断口味偏好。而这个过程,我们可以理解为数据分析。最后,当把一桌子菜做好端上桌,色香味俱全,就是数据可视化和数据呈现了。
在数据开发流程当中,重点分享一下数据接入、数据整合以及数据处理。很多做企业的朋友觉得自己的数据资源有限,或者说数据的维度太单一,这些都是现实情况。有句话说的好,有条件要上,没有条件创造条件也要上。数据的积累是一个持续的过程,可以先从内部采集做起,打下基础,再想办法从外部获得想要的数据资源。
在我自己主导的三个创业项目之外,还涉足过商用wifi这个领域,当时负责全国市场拓展。什么是商用WiFi,大家在一些公共场所,比如机场、高铁站、商场和医院,可能就有用过微信连WiFi的服务。
在业务拓展过程中,我们跟微信、360以及公安系统的网络监察部门,都有过关于数据共享方面的深入合作。合作的前提是互惠互利,就以跟公安网监的合作为例,我们获取数据是为了商业化运作,而这些数据对他们,则是用于治安、反恐、维稳和安保。
那段时间,我跑公安系统比较多,尤其广东省内,无论市局、省厅,还是下面的分局、派出所,甚至社区警务室,很多都要去做具体的业务对接。因为这个领域相对有些敏感,就不深入介绍了。
总而言之,数据资源需要一个逐步积累的过程,既要内部采集,也要从外部去拓展。至于方法有很多,可以用交换,也可以通过其他方式。具体怎么操作,必须结合自身的行业特性。
03
当数据源足够丰富的时候,下一步就是对这些数据进行处理。在数据清洗过程中,最重要的三点,是数据的完整性、准确性和时效性。
譬如我们平常用百度地图或者大众点评,会发现很多信息有误,有些商户早就不存在了,但还显示在地图或者点评页面上,而有些新建的住宅小区、购物中心却没有及时显示出来,这个就是时效性的问题了。
之所以出现这种情况,是因为百度地图和大众点评属于开放平台,任何人都可以在地图上标注一个位置信息,或者创建某个商户。这样一来,平台聚合的信息量虽然很大,却很难保证准确性和时效性。
一旦原始数据质量不佳,就会对后面的数据分析环节造成困扰,因此对数据的清洗至关重要。
在我们运营外卖项目的起步阶段,做了大量基础数据的采集和处理工作。当时大部分餐厅对于互联网订餐完全没概念,我们虽然可以给餐厅提供后台账号,告诉他们如何上传菜品、价格等信息,但他们不懂也不愿意操作,最后这个事情还是得交给我们来做。所以每天要处理大量的基础信息,把菜品名称一个字一个字敲出来,把价格准确填上去,不能有丝毫差错。但也经常会搞出笑话,本来是一个尖椒肥肠饭,结果用搜狗拼音打出来之后变成了“尖叫肥肠饭”。
中式快餐的特点之一是品种太多,店面经营上难以复制和形成规模化,不像麦当劳、肯德基,所有品类加在一起也就几十种,而咱们的中餐馆,一个小小店面,能搞出一百多种,还有些港式茶餐厅,竟然三四百种。我们当时面临的合作餐厅基础数据采集的繁杂程度可想而知,但是这个环节必须做好,不仅要信息准确,如果菜品、价格或优惠活动有变化,还得及时更新,只有这样,用户在订餐的时候才能够获得更好的体验。
另一个更重要的事情,是关于订餐成功率,跟数据清洗也有很大的关系。什么是订餐成功率?比方说,用户下单之后,餐厅有可能不接这个单,因为距离太远,送餐太费时间,不划算。当餐厅不接单的时候,既影响用户体验,也会拉低订餐成功率。尤其在七、八年前,不像现在有专门的配送队伍,外卖小哥穿着统一的服装,骑着电动车在街头穿梭。那个时候,负责送餐的是店里的员工,或者老板的三姑六婆,忙起来的时候老板娘都得亲自上阵。
做快餐的黄金时间也就中午的两三个小时,所以在高峰期,哪怕只隔着一条马路,那些需要爬楼梯的,或者电梯很难等的,订单来了餐厅都不愿意接。我们初期做市场调研,跟很多餐厅负责人交流过,他们都有提到这一点。但用户在下单的时候未必清楚这个情况,因为系统是根据用户所在的位置,按照一定的半径范围自动匹配附近的餐厅。那么问题来了,无论GPS还是基站定位,都会存在一定程度的漂移。GPS受到天气、云层、以及周围建筑物和磁场干扰,有的时候飘出一两百米,甚至三五百米都很正常,而这种距离,对于餐厅接单就是致命的打击。
04
因此在做系统开发的时候,我要求技术部门,不能为了图省事就直接从地图服务商那里抓取基础数据,然后设定一个500米或1000米的半径范围,自动匹配餐厅和用户。因为基础地图数据没有经过清洗,准确性和时效性都不够。其次,不能简单以GPS或者基站定位,一旦位置漂移过大,会影响餐厅接单的积极性。那怎么办呢?我让技术部门按照我提供的关键词列表,把地图数据先做一次过滤,然后交给客服部,进行逐个比对。要求必须保证我们数据库里面的位置信息,跟现实世界里存在的建筑物保持一致。
可以想象,这是一个很繁杂的工作,但是好处在于一次成型。后续,当有新建筑物产生的时候,只需要保持更新就可以了。
做好这个事情以后,我们的销售人员跟餐厅签合作协议时,会给餐厅一张送餐范围确认表,这张表上面有附近所有的建筑物。餐厅根据实际情况,把送不了的建筑物勾选出来。在不具备专业配送体系的阶段,通过这种看似比较笨的方式,把餐厅和用户准确的关联起来。好处在于,用户订餐的时候,不用担心餐厅不接单,而餐厅则可以傻瓜式接单,不用担心送不了。这样一来,订餐成功率自然就高了。
由此可见,在大数据的开发流程当中,数据处理是一个承上启下的关键环节。只有打好这个基础,才能够通过日常运营,不断生成和抓取更多有价值的新数据,进行深度分析和应用。关于数据分析的方法和要点,会在下一个章节继续分享。
在这里还是要推荐下我自己建的大数据学习交流群:957205962,群里都是学大数据开发的,如果你正在学大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据软件开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴加入。