百度大数据预测为何测不准?
未来某一天,在你驱车前往公司的路上,导航系统通过预测交通流量,会自动帮你选择一条最合适的交通路线;根据以往精准的历史数据和参赛人员相关信息,互联网公司就能提前预知如欧冠、NBA等体育赛事下一场哪方夺冠;可穿戴设备和智能健康设备帮助网络收集人体健康数据,或许将提醒你身体罹患某种慢性病的风险……
但是,大数据预测也会遭遇“测不准”的失败。去年百度通过大数据预测电影《黄金时代》将热映,结果恰恰相反。
大数据在改变哪些行业?
今年清明小长假期间,想知道全国哪些景区最火热?各大5A景区舒适度如何?当游客在百度搜索“清明节旅游”等时,搜索结果页右侧则出现了全国景点拥挤度预测,在预测中,用红、橙、黄、绿等色块体现了不同景区的不同“热度”。
大数据也被逐渐应用于新闻领域。去年1月,央视“晚间新闻”推出《“据”说春运》《“据”说春节》等大数据新闻报道,成为国内最早系统、持续地通过大数据技术改进电视新闻播出形态的栏目,并尝试透过数据挖掘,讲述春运背后的故事。
其实远不只是这些行业,大数据在股市、健康、电影、餐饮等各个行业领域已无处不在。“普遍渗透到各行各业的现象,是当前大数据发展的重要表现,也是大数据从概念走向应用的明显标志。”清华大学新闻与传播学院教授沈阳表示。
央视综合频道新闻编辑部策划组副组长、“据说”系列大数据报道项目负责人郭俊义认为:“随着互联网技术迅速发展,各个行业领域的大数据价值正被逐渐挖掘出来。大数据广泛应用或许不一定给传统行业带来颠覆,但一定会带来巨大变化。如果传统行业不能适用”互联网+”下的大数据技术,那么可能在竞争浪潮中就处于下风。”
以大数据对传媒领域的影响为例,郭俊义介绍,目前对电视节目的评价标准除收视率外,有些电视台还将网络影响力作为一个重要权重。因为电视节目在网络媒体传播、社交媒体评价等方面的效果反馈,很难通过人工方式收集,大多需要依靠大数据进行细致挖掘和分析。
此外,业界人士也指出,大数据已开辟了一个新闻报道的全新领域。“大数据让新闻表达方式更加数据化,图形、图表等的运用让新闻呈现形式更加可视化;同时新闻生产也更加实时化,依靠大数据挖掘手段,媒体从业人员能迅速准确地找到热门选题;此外,大数据还能帮助新闻产品完成在传播过程中的评估以及传播效果的反馈。”沈阳说。
客观看待大数据预测失准
有人说,就电影行业而言,大数据是市场拓展与经营的救命丹药—因为在对以往数据把握的基础上,大数据对电影票房的预测曾被业界认为“可圈可点”。不过,去年10月份电影《黄金时代》上映,大数据票房预测却遭遇了“马失前蹄”,这也让不少人纷纷质疑大数据预测的准确度。
大数据预测究竟靠不靠谱?重庆大学新闻学院院长董天策认为,大数据预测在不同领域的成熟程度不同,相比气象、经济、机器制造等领域,电影领域涉及的变量颇为复杂,预测过程中也带有较强的偶然性,出现预测偏差情况也属正常。
董天策进一步分析说,网络舆情很多时候和该领域的用户结构有莫大(博客,微博)关联,因此,大数据网络用户结构和社会整体结构存在偏差,导致了现有数据积累不能代表整体社会心态。“和传统抽样调查相比,虽然大数据的数据量大、运作速度快,但很多时候存在”变量遗漏”和”样本偏差”等状况。即使将所有数据提取出来预测分析,其预测结果也不够准确。这个问题在各个领域都或多或少存在。”
除当前大数据总量普遍存在积累不足、数据收集不完整外,沈阳认为,现有数据中还存在很多“垃圾数据”“脏数据”等干扰信息,由于预测手段的局限,这些因素对预测结果造成了负面影响。
此外,沈阳还指出,在大数据预测过程中,各个行业中随时都可能出现社会突发事件以及人们心理变化等不可控变量,这些因素也会大大影响大数据预测的精准度。
大数据价值有待充分挖掘
作为“互联网+”的重要范畴,业界人士大多认同,大数据预测将是未来各行各业的重要趋势。不过,大数据预测在很多方面还有待进一步完善,大数据的潜在价值也有待进一步挖掘。因此,如何让大数据预测更加精准,更充分地服务社会生活,一直是业界思考的问题。
专家指出,各行业领域加强本身大数据积累的同时,还应该促进信息的开放和互联互通。“当前很多数据都是孤立存在,因为很多互联网公司的大数据都是其核心价值,由于涉及商业价值和商业秘密,要做到彼此间共享还有一定局限。”郭俊义说,“政府部门也应该加强交通、人口、经济等领域内的大数据公开,这样大数据积累才会越来越多。”
要加强互联网公司、各机构间的连接,打破“信息孤岛”状况。沈阳认为,应建立相关社会协调机构,设立比较好的数据连接标准,形成相关产业规范,不断鼓励数据研发创新;同时,逐渐形成科学的数据“清洗”方式,建立一套“垃圾数据”评估机制,确保每一部分数据来源的有效性。
如何减少数据预测过程中突发的变量干扰?“针对同一对象的预测,可通过不同来源的大数据预测结果交叉印证。”郭俊义表示,以对景区某一时间段人流量的测算为例,可通过游客WiFi热点、LBS手机定位、手机信号等多种方式进行数据收集分析,再将得到的多个预测结果相互印证,其准确度和可信度都会大幅提升。
而随着大数据积累以及测算手段的不断进步,对于如何在大数据安全和个人隐私保护方面持续跟进,郭俊义认为,“大数据安全和网络信息安全一脉相承,不仅需要健全法律规范,而且也需要相关行业的自律”。
同样以大数据为基础的人工智能公司飔拓,就利用大数据及人工智能制作的舆情监控系统,属于行业内领先水平,抓取和分析水平已达到国内领先水平。