《智能时代》10: 大数据与智能革命的技术挑战
大数据的数据量大、维度多、数据完备性等特点,这让如今的数据方法与过去有很大不一样。
因此,在技术和工程上,使用大数据的方法也不一样。
大数据在如今这个智能时代才爆发,一方面的原因就是因为很多相关性的技术已经趋于成熟。
但是未来想要得到进一步的发展,还需要解决很多技术上瓶颈。
第一,数据收集——技术成本高和数据完备性问题。
按照信息论的观点,要消除不确定性就需要信息,因此信息的收集非常关键。然而大数据时代收集数据的方法与传统的收集方法有很大的不同。
传统的数据方法强调目的,然后为了这个目的,去收集数据。而在大数据时代,通常在收集数据时并没有一个明确的目标。而是先收集大量的数据,然后再通过分析这些数据,能够提炼出什么结论。
另一个不同点在于,过去我们是通过少量的采样获得所谓具有代表性的数据,这些数据被称为样本。
然而这常常会出现一定程度的误差甚至在商业上会因此酿成大祸。而如今收集数据常常以全集作为样本集,但是怎样收集到全集就是一件很有挑战的事情了。
从图库选择图片
有意义数据的收集讲究的就是在无意之间完成。
因此简单来说,在数据收集方面我们面临的挑战就是:
一方面想要在无意之间收集到数据就需要花费大量的成本,然而成本太高就失去了数据收集本身的意义;
另一方面,在低成本下收集到的数据是否真的完备。比如通过《纽约时报》、路透社等权威媒体去预测美国总统的选举结果。
第二,数据存储和表示——节约存储设备和标准化数据格
摩尔定律固然使得存储的成本大幅下降。也就是说,存储设备发展会以每年平均40%的速度增长。
但是,大数据出现之后数据量的增长是高于这个速度的。在未来,他们两者之间的差距会越拉越大。
因此,简单地通过生产和购买更多的设备,恐怕并不能彻底解决数据存储的问题。现如今,我们需要一种技术方案,来保证大规模的数据量都可以存的下,且存储的信息方便使用。
所以说,大数据面临的另一个技术难题就是如何标准化数据格式,以便共享。
第三,数据处理——并行计算与实时处理
大数据由于体量大、维度多,处理起来计算量巨大。因此,并行计算的水平决定了处理大数据的效率。
你可能会首先想到的是,如果直接用算力增加10倍的处理器进行计算,不就可以节省10倍的时间了吗?
但,处理器的算力增加有一个阶段,短时间要将处理器算力增加10倍,这在工程上是无法做到的。所以,我们现如今,只能采用并行计算的方法。
影响并行计算的因素有两方面。首先,任何一个问题有一部分进行并行计算,这类问题占比越大,并行计算的效率越低。
另一个影响并行计算效率的原因是每个小任务的计算量并不相同。
大数据处理的另一个挑战是对实时性的要求。比如过去用Excel在几万行数据中找到最大值只要一两秒钟的时间。
但是在一个几干万行的电商销售日志中要找到销量最好的商品,处理时间至少要几十分钟,这对离线的数据分析可能不是一个大问题。
第四,数据挖掘——机器智能的关键
大数据能产生的效益在很大程度上取决于使用数据的水平。由于我们在收集数据时强调无目的性,因此数据大多是没有固定模式、杂乱无章的,从而导致数据的信噪比降低。
因此使用大数据的第一步就是对数据的过滤和整理。虽然有时候这个步骤比较容易,但是在大多数应用中,如果没有很好的自然语言理解技术,这第一步都无法完成。
处理好这一步,接下来关键的一就是机器学习。虽然机器学习在今天很常见,但是如果认为机器学习就是把几十年前的论文拿过来用计算机的程序实现一遍,那也未免太天真了。
因为机器学习一旦上了规模,实现起来可不是一件容易的事情。
第五,数据安全与隐私保护
机器学习的方法不可能由每家公司自己去研究,最终会由专业的公司为大众提供机器学习的服务。但是这样又会引发大家的一个忧虑,那就是数据安全和隐私保护的问题。
数据安全有两层含义,首先是要保证用户的数据不损坏、不丟失。第二层的含义,即要保证数据不会被偷走或者盗用。
如今由于人们对计算机的熟练使用以及云端技术的发展,第一个问题大家几乎都不担心。今天大家担心的是自己的数据是否会被别人偷盗,以至于让自己蒙受很大的损失。
在大数据时代,虽然计算机系统在设计时对安全性的考虑比过去周全了许多,但也无法完全地防止黑客入侵行为。比如,很多时候,连美国政府的网站也曾经被黑客攻击和窃取信息。
简简单单地屏蔽掉一些个人信息并不能保护隐私。在过去,这种方法或许作用很大,因为各种数据无法在数据库汇总进行关联。
但是在大数据时代,由于大数据本身多维度的特性,简单屏蔽掉的很多信息是可以恢复的。因此,保护隐私还需要更新的技术。