大数据与模式识别
大数据与模式识别
2014年,最热闹的概念莫过于大数据,大数据似乎成为科技和商业发展的未来。但我个人认为,大数据无论从技术还是应用都不能承载时代给予的重任,而模式识别才是。业界给予大数据如此之高的期望,是人们从数据匮乏时代走向数据富足时代。人们过去的决策往往是基于数据和信息不充分的背景下,人们期望在信息完整的背景下做出决策,这是大数据的根本所在,也是优势所在。但这同时是大数据的软肋所在,优势同时也是劣势。有人说,大数据分析就是模式识别,这个观点有问题。大数据分析需要模式识别支撑,但是,模式识别的内涵要大于大数据分析,模式识别是独立于大数据分析的。
大数据的采集和量级已经不是问题,最核心的问题是数据之间的关系。那些是有效数据,那些是无效数据,数据之间是如何作用的,这是大数据的根本所在。啤酒和尿布的故事是大数据的经典案例,通过大数据发现了数据之间的关系。但这个关系是通过用户信息钩稽在一起的,它的是一群年轻爸爸的购买数据的子集,有了年轻爸爸这个父集才能将啤酒和尿布这个子集关联起来。但由于地球越来越平,各种疆界被不断的打破,世界的联接关系越来越复杂,越来越碎片化,我们不知道哪只蝴蝶翅膀的煽动引起哪场风暴。我们导入的数据越来越庞大,计算越来越复杂,而数据关系本身也处于变化之中,所以大数据给出的结论是滞后的,或者说是短命的。从哲学层面来说,大数据是形而下的,是机械技术,而不是生命智慧技术。
大数据自古有之,天文、历法等都是大数据的成果。大数据的作用取决于数据的时效性和数据关系稳定性两者之积,在农业社会、工业社会,数据时效性和稳定性都相对稳定,所以大数据适用。但是,到了信息时代,这两类特性大大降低,人类行为对空间和时间的依赖度大大降低,而通过技术我们超越时间和空间。去年微薄还如日中天,今年就近黄昏了,用户呼啦一声跑到微信上去了,你按照去年网络大数据投放微薄的推广肯定血本无归。你通过大数据获得的模型,很快就失效了,要求你要不断的追踪数据的变化和迁移,构建动态模型,而这个层面是模式识别的事。对于决策来说,如果信息完整,关系确定,谁都能够做出准确的决策,也就是所谓的隔离效应。人类的智慧和机会在于,在信息短缺的背景下做出判断,这种决策方式在技术语音上叫模式识别。大数据和模式识别是线与面的关系,数据是点,大数据发现点与点之间的关系把它联成线,模式识别是将这些线连成各种各样的面。模式识别是整体识别模式,是将环境整体纳入识别体系中。我们辨别不同人的方式就是模式识别,我们可能根本不清楚某人眼睛、鼻子的大小和形状,但是我们却能辨别这个人是不是他。因为我们是对整个人进行记忆的,他的长相、包括他的声音、眼神、表情等,通过对人整体信息的识别,进一步辨识是他而不是他的双胞胎哥哥。
信息不完备环境下的模式识别是智慧的内核所在,大数据将信息进行联接,描绘出可能的连接,而模式识别的任务是从复杂的联系中找到有用的路径,并以此构建因果环境,建立认知模型及演进模型。人类的知识体系可以说是通过大数据加模式识别方式建立的。而科学则是将模式识别更加形而上,将模型通过“数”来描述,是更高层次的模式识别。从本质上,中国最神秘的周易是将不可言“道”纳入到“数”这个可感知的范畴内,和西方科学体系是一致的,只是表现方式和路径不同而已。中医和西医的差别也是如此,中医体系纳入考量的范畴更大,量化方式更加抽象,比西医更加高级。当前社会节奏飞快,人们在做决策时往往是处在信息不完备的状态下,快速决策依靠的是当前信息和过去所有经验所形成的决策模型。在《影响力》一书中,作者表述了一个观点,人们在做决策时往往不是依赖信息,而是依赖经验,也就是说人们使用信息时大多采用的模式识别。例如一些募捐者使用互惠原理进行募捐。
从技术层面讲,大数据最难的部分是辨识信息。除了机器语言外,人类创造的信息都包含多维度信息,或者说人类表达一个完整的意思都包括多维度的信息。大数据如何辨识这些信息需要通过模式识别,并将其纳入不同的格式化数据范畴。其次是构建不同数据之间的关系,这个关系一种是通过计算连接的,一种是主观连接的。
所以,大数据是果,而模式识别是因。大数据解决的是所以然,而模式识别解决的是之所以然。之所以要掰扯这两个概念是因为很多公司并没有意识到这个问题,把两种混为一谈,或者把模式识别囊括到大数据中,这是错误的。只是收集数据的公司是没有什么未来的,因为你不能占有数据,而在模式识别上积累才能有未来。
对于模式识别,重要是思维,是目的,数据是支撑。我们的通话记录数据代表什么?计算机能够告诉我们什么?电信运营商已经把这些数据分析的透透的,并根据这些诶数据设计了N多的手机套餐。但是,放到行为分析专家的手中,他可以分析出不同人群的社交特点。而放到社会管理部门手中,他们看到的区域动态人群流动和分布。
: