这个数据的时代:漫谈数据驱动
“本文从非常宏观的视角来阐述数据价值。”
欢迎关注公众号:晓阳的数据小站
|0x00 数据驱动的本质
什么是数据?在大多数人的看法中,只有“数字”才能称之为“数据”,或者是必须由数字来组成的东西,其实不然。数据的概念要比数字大的多,例如在互联网上,不论是我们看过的新闻(文本)、朋友圈的动态(图片)还是正在追的电视剧(视频),这些都是数据。更加广义一些,医院中的诊疗档案、建筑工人使用的图纸,这些也都称之为数据。
讲到数据,又不能不提到“信息”。刚才提到的那些内容,本质上也是信息,所以“数据” = “信息”。但其实数据和信息还是存在一定不同的地方,数据记录了事物的客观属性,需要经过加工处理或者解读之后,才能成为信息。因此可以这么讲,在于虽然数据承载了信息,但并非所有的数据都承载了有意义的信息。
很多时候,我们无法直接解读数据,因为原始的数据是没有意义的,但我们可以通过一些数学模型,将数据进行量化,从而间接的获得信息。在互联网行业中,大多数的数据模型都离不开概率和统计学的知识,因此不论是基础面试、还是算法/分析岗位,对于数据能力的要求都非常高,本质就是因为数学才是数据从业者的根本竞争力。
那么为什么现在的行业发展,因为数据而变得不同了呢?最大的原因,在于“大数据”的出现,通过海量的、过去所无法想象的数据量,让计算机具备了一些人类的能力,让过去只能通过经验主观判断的东西,变得客观了起来。
“让计算机具备人类的能力”,具体而言,指的就是“数学模型”。
过去的数学模型主要是指统计学的方法,典型的例子就是美国大选的民调问题。但统计学的结论要准确,离不开两个核心的因素:一个是数据量要足够的多,一个是样本要足够的有代表性。数据量足够多好理解,而有代表性很多人就不是那么理解了,如果看看1936年盖洛普预测罗斯福获胜的例子,你就会明白“代表性”的重要了。
今天我们都在讲数据埋点,你设计的方案,真的有代表性吗?
但仅仅依靠统计学,只能解决简单的问题,而无法解决一些相对复杂的问题。引申一下,就是依靠统计学做的报表系统,只能解决基础的业务问题,而无法解决诸如供需匹配的复杂问题。
这个时候,数据模型就登场了,大多数的复杂业务应用,是通过数据来建立一个数学模型,来解决复杂问题。但数据模型同样存在两个核心因素:采用什么样的模型,以及模型的参数是多少?
真实的情况中,模型的选择是一件很困难的事情,因为简单的模型不一定会与现实情况匹配,而复杂的模型往往需要耗费非常长的时间来寻找。过去不论是在理论上还是工程上,大家都寄希望于找到一个比较完美的模型,然后通过调整参数来让模型的结果与之前统计到的结果相匹配起来,这其实就是“机器学习”要做的事情。
但不是所有的业务都能找到完美的模型,所以有些人就考虑通过把一些简单的模型组合在一起,达到完美模型的同样效果,而如果数据量足够,这种方法是可行的,这就是“数据驱动”。
数据驱动的前提就是存在大量的数据,而不是有预设的模型,然后通过组合简单模型的方式来达到与真实模型同样的效果。尽管这种方法在数据量不够的时候,与真实模型会存在偏差,但如果这个偏差是在误差允许的范围内,那么结果上看就是与真实模型等效的。有兴趣的可以学习一下切比雪夫定理,这么做是有一定数学根据的。
当然,数据驱动想要成功,除了数据量之外,还需要数据具有足够的代表性,在大数据技术出现之前,这是很难的,但随着实时、反作弊等技术的不断进步,清洗出一批有代表性的数据,还是可以做到的。
所以,我们对大数据、或者说数据驱动的认识,不应该只停留在统计报表上,或者停留在提供辅助决策上,而应该看到它和摩尔定律、数学模型一起,催生了机器智能的发展,而机器一旦产生了和人类类似的智能,就将对人类社会产生重大的影响,这才应该是我们的职业追求。
接下来,我们讲一下,大数据与信息论的关系。
|0x01 从信息论看大数据
大数据是为了解决什么问题?从根本上讲,是为了解决世界的不确定性问题。量子力学从物理上解释了客观世界的不确定性,为什么大数学站到了历史的巅峰之上,就是因为大数据能够解决这些不确定性问题,从而实现我们心中所设想的“智能时代”。
从这个角度上,我们就能够理解大数据的4V特征:Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值),为什么这么重要了。
首先谈大数据的“量”。数据量大的重要性,体现在两个方面,一个是前文提到的,用足够的量来消除信息的不确定性;第二个是,即便数据是有代表性的,但因为数据本身的随机性,会导致噪声情况的存在,只有足够多的数据才能将结果的置信度提上去。因此当某个领域的数据量迅速积攒起来之后,某个领域的研究进展就可以很快的提升起来,成果也就更容易看得到。像自然语言识别、人脸识别、基因检测等领域,无不是数据量决定了研究的速度。
其次谈大数据的“多样”。多样的重要性也体现在两个方面,一个是越来越多的非结构化数据,随着技术的进步,变得结构化起来。早期的结构化数据通常是指文本类数据,如电子邮件、文档等,随着互联网和物联网的发展,又扩展到音频、图片、视频等结构,通过更多样化的方式来描述客观的世界。另一个是大数据通常是多维度的,能够对计算的结果进行“交叉验证”,这可能是数据科学家在进行统计分析时最重要的技术之一。可以说,大数据“多样”的重要性,是有信息论做理论基础的。
再谈大数据的“高速”。高速的意义,在于过去因为计算量太大,导致的不能实现的、或者是只能依赖超算实现的东西,变得更加普及和常见了。比如通过无数数据喂出来的“谷歌大脑”,或者是PageRank算法算出来的更加准确的搜索结果,使得计算瓶颈不再成为限制模型的主要因素。高速的另一个意义是数据的时效性越来越强,各种实时技术的出现使得我们获取信息、做出实时决断的能力大大提升了。
最后谈一下大数据的“价值”。从信息论的角度来看,有一个很重要的概念,叫作:“交叉熵”,这个概念并非由香农提出,而是由库尔贝克等人提出。它可以反映两个信息源之间的一致性,或者两种概率模型之间的一致性。当两个数据源完全一致时,它们的交叉熵等于零;当它们相差很大时,交叉熵也很大。所有采用数据驱动的方法,建立模型所使用的数据和使用模型的数据之间需要有一致性,也就是盖洛普所讲的代表性,否则这种方法就会失效,而交叉熵就是对这种代表性或者一致性的一种精确的量化度量。在过去,使用任何基于概率统计的模型都会有很多小概率事件覆盖不到,这在过去被认为是数据驱动方法的死穴。这些漏网的情况反映到交叉熵时,它的值就会达到无穷大,也就是说数据驱动方法在这个时候就失效了。而在大数据时代,在某个领域里获得数据的完备性还是可能的,就相当于训练模型的数据集合和使用这个模型的测试集合,是同一个集合或者是高度重复的,这样,它们的交叉熵近乎零。这种情况就不会出现覆盖不了很多小概率事件的灾难,这样的数据驱动方法才具有普遍性,而不再是时灵时不灵的方法论。
由此可见,大数据通过信息论作为基础理论,利用信息消除不确定性,因此从更高的维度对一些传统产业产生了降维打击。虽然人类使用信息由来已久,但是到了大数据时代,量变带来质变,以至于人们忽然发现,采用信息论的思维方式可以让过去很多难题迎刃而解。
接下来我们再讲一下互联网公司的数据生意。
|0x02 互联网公司的数据生意
我们经常讲,一个商业模型,成熟与否的标志之一,就是赚不赚钱。就像人工智能长期没有商业应用,因此一直是被批评的、不成熟的产业。
如果我们看互联网企业用数据赚钱的历史,就是一个“由轻到重、由浅到深”的过程:过去是通过在线化来获取流量,再用流量取得经济规模的红利;现在是使用数据来深耕一些行业,挖掘更深的价值点。
网上比较公认的意见,是可以将中国互联网的发展分成四个阶段:门户网站时代、BAT时代、移动互联网时代和IOT时代。
门户网站时代的代表是新浪、搜狐、网易,有点“御三家”的感觉。这个时候使用数据的方式比较简单,就是把网站的流量卖给品牌广告。
BAT时代的代表是百度、阿里巴巴和腾讯,分别从人和信息、人和商品、人和人的角度,将人与数据连接了起来。这个阶段使用数据的方式就高级了很多,通过检索全网的内容,利用数据挖掘人的行为意图,再将合适的广告推荐给合适的人。百度是竞价排名、阿里是电商广告,二者的本质是把流量卖给第三方。但腾讯更进一步,做了中国科技互联网领域里的第一次突破,也就是用自己的流量去分销自己的虚拟产品,比如游戏。
移动互联网时代的代表就是头条系、快手这一类的公司了。随着信息分发效率的提升,更多的人被低成本的链接到了互联网的世界,大爷大妈第一次加入了其中,新的流量产生了,新的机会也就到来了。
但这个时代还有一些其他的代表,几家“重资产”的互联网公司兴起了。美团拥有50多万骑手,小米更是自己开始造手机,广义上,蔚来和大疆这一类的公司,也可以囊括进来。与过去轻资产的公司不同的是,这一类的公司获取流量、使用数据的方式更重了,因为数据直接与线下的物产生了关联。同时,这些公司依靠产品带来的连接和流量,以及它对用户数据的深层理解,有机会创造更大价值。
IOT时代,目前更看好华为一些,鸿蒙大有可为。
整个中国互联网发展的主旋律,就是一个流量获取由轻到重、价值变现由浅到深的过程。目的都是通过建立连接获取流量,再去取得经济收益,这个就是中国流量型公司的方法论。
对行业的投入越来越重,对数据的理解越来越深,数据改造商业的潜力,也就越来越大。
|0xFF 数据信仰
很多大佬开始强调“数据信仰”,不仅因为欧洲的GDPR法规开启了数据个人资产时代,也是因为流量越来越重、算法越来越专业、数据越来越实时的今天,单纯的极致思维已经不能满足用户了,而需要像互联网刚诞生那样,带来体验的成倍增长,从整个流程上彻底满足用户,并突破临界点,才能实现突破。可以这么说,体系的变化,才是用户下定决心的根本理由;对数据有信仰,才可能打开新的创新之路。
反映到具体的公司业务上,就是现代市场越来越弱化职能,强调发现机会、解决问题的能力。当工具越来越完善的时候,要么向上走,打业务;要么向下走,拼技术;而过去吃到了技术红利的技术中产阶级,则会逐步消失。
我们现在越来越强调“企业数字化转型”,为什么企业会存在数字化的问题?用大佬的话讲:能把企业的信息拉通起来看,其实就已经很不容易了。因此企业数字化的本质,还是把企业自己的一些要素变成数据,然后通过一些成熟的模型来解读这些数据,从而“部分”避免过去经验主义带来的弊病,让企业的决策更加理性一些。
之前有人提出过疑问,就是天天做开发,哪有时间做创新,晋升为什么一定要看重创新。大佬的回复也很简练:你的努力反映在绩效上,但晋升必须要有所创新。回到数据信仰上,这种创新就是找到使用数据,解决问题或带动增长的方法,并且要有一定的壁垒,防止别人抢了,也需要有拉通的能力。所以,运气很重要,但碰到运气后实现的能力也很重要。这就像pubg这款游戏,枪法重要、运营重要,但圈运、对手行动的时机,也很重要。
后话:
本文是读书笔记整理而成的,从数据驱动是什么,一直讲到互联网公司的生意经,再讲到一些职场问题。其实前后的逻辑性未必有多强,但整理这些信息的过程,对自己的启发还是挺大的,至少PPT的素材有了。很多时候,技术是我们数据人的硬技能,但平时多读书,学一些天下大势、哲学尽头一类的软技能,用来给自己的谈吐言行做一些修饰,也是很重要的。毕竟工作十年、二十年之后,你过去熬了多少夜恐怕不会有人关心,但你能讲出什么道理,却是别人对你敬重有加的关键。