吴军《智能时代》读书笔记
一、什么是大数据思维方式
1、工业时代的机械思维
通过因果关系找到答案。难度大,取决于物质条件,人们的努力,运气。
【例子1】托勒密利用数据建立起描述天体运动的模型。模型错了,走了弯路。
【例子2】青霉素的发现,从知道青霉素可以杀死细菌->找到青霉素的有效成分->了解青霉素的原理->应用经历了10几年的时间。这个过程遵从了“分析找到原因,根据原因得到结果”的思维方式。
2、大数据的思维方式
从以往的 “因果关系”->“强相关关系” 的思维方式的转变,前提是有足够多的数据。
【例子1】美国一共有5000多种处方药,人类得到的疾病大约会有一万种。如果将一种药和一种疾病想匹配,会发现一些意外的惊喜。比如斯坦福大学医学院发现,原来用于治疗心脏病的某些药物对于治疗胃病特别有效。这样找到治疗胃病的药只需花费3年。成本只有一亿美元。
3、熵的世界观
香农的信息论:借用热力学里熵的概念,描述一个信息系统的不确定性。
信息量与不确定性有关。假设我们对某件事情一无所知,就需要了解大量信息。相反,如果对某件事情已经有了较多了解,就不需要引入太多信息。引入信息可以消除系统的不确定性。
3、大数据的本质
很多智能问题本质上是消除不确定性的问题。通过一整套方法,寻找数据的相关性,最后解决各种问题,
二、大数据是什么
1、大数据具有数据量大,多维度和完备性三个特征。
从这三个维度讲解大数据的本质:
(1)数据量不够,即使使用数据,依然不够消除不确定性,所以,哪个领域先积累足够多的数据,它的研究进展就会快一些。比如谷歌搜索之所以比其他搜索准确,是因为谷歌使用的人多,数据量大。谷歌搜索算法的其中一部分是对用户的点击数据建立一个简单的“点击模型”,占了70%-80%的比重。
(2)多维度:为了获取相关性通常需要多个维度的信息,也就是“互信息”。比如“湿度高”和“下雨”之间的互信息较大。
(3)完备性:任何基于概率的统计模型都会有很多小概率事件覆盖不到,当数据完备之后,相当于训练集合和使用集合是同一个集合,不会出现小概率覆盖不了的黑天鹅事件。
2、大数据的来源
(1)电脑本身。
(2)传感器:万物联网离不开传感器。
RFID:商品防伪和跟踪货物移动,可穿戴设备感知加速度,
摄像头、手机的GPS、采集声光热运动的传感器等。
3、大数据的应用场景
【应用场景】
① 通过智能电表,找到偷偷在室内种大麻的独栋别墅。
② 通过同一条街道税收的相关性,找到偷税漏税的商家。
③ 线下场景RFID芯片:普拉达,根据 RFID上记录的信息推荐同类型的衣服
④ 谷歌的自动驾驶:其实也是因为谷歌收集到了非常完备的信息,比如周围的各种目标的形状,大小,颜色。
⑤ 智能家居:将wifi装到冰箱和大型家电商,能够通知用户设备元件的损耗,及时更换设备。以及全面了解用户的使用电的情况,方便推销后续产品。
三、如何处理大数据
应用大数据的前提是能够讲一个大的计算任务分配到很多便宜的服务器上去做并行计算。
并行计算的另一个必要条件是交换机和网络速度非常快。
1、如何存储:采集,去除数据冗余。
2、如何处理:
四、大数据带来的影响
历史上,每一次重大的技术革命,都需要很长时间来消除它所带来的负面影响。因为技术革命会使很多产业消失,或者产业的从业人口大大减少,释放出来的劳动力需要寻找出路。这时间至少要一代人以上。因为我们必须承认一个并不愿意承认的事实,那就是被淘汰的产业从业人员能够进入新行业的其实非常少。事实上,消化这些劳动力,主要靠的是等待他们逐渐退出劳务市场,而并非他们真的有新的出路。
大数据导致机器革命到到来,对未来社会的影响,不仅仅存在经济领域
1、人类史上三次技术革命对社会经济带来的影响
(1)第一次工业革命:英国大机器替代了手工业的发展,导致社会大量的产能过剩。为了输出产能,解决工业革命的副作用,西欧的一些国家开始资本输出,开拓全球殖民地,推行自由贸易。
(2)第二次工业革命,核心是电的使用,生产效率进一步提升,催生了很多新产业。当时美国的贫富分化差距达到了北美殖民以来的最高点,而且比今天严重得多。美国历史上不多见的激进的工人运动也发生在那一段时期。另一方面,美国南方的经济被北方的大工业彻底碾碎了,并没有因为第二次工业革命而受益。
当美国,德国崛起是,他们已经没有英国那么好的运气了,有那么多未开发的殖民地在等着他们。好在美国有广袤的中西部处女地等待开发。但是美国的平复差距还是很严重。
德国没有美国幸运,为了输出产能,它最后不得不发动第一次世界大战,在一战后战败后,德国的问题并没有得到解决,于是导致了民粹主义泛滥,最终劳工阶层把纳粹推上了台。
(3)信息革命:虽然让很多人使用上了最新的科技产品,然而并非每个人在经济上和社会生活方面都受益于此。在过去30年里,美国和中国两个国家贡献了全球超过一半的GDP增长。但是以苏联为核心的东欧集团、超过10亿人的穆斯林地区、大部分欧洲国家、整个南美洲,对于信息革命的贡献微乎其微。它们自由的旧的经济结构已经落伍,甚至被摧毁,在新的经济结构中,他们虽然能够享受到信息革命的产品,却没有享受到信息革命带来的经济增长。从全世界的范围来看,消化掉信息革命的冲击波,或许还需要更长的时间。然而现在大数据和机器智能革命已经来敲门了。
2、机器只能革命,我们该如何做
机器智能会给人类带来一个终极问题:既然什么事情都可以让机器来做,而且还比人做得好,那么人类该怎么办呢?要么加入2%,要么被淘汰。
不是人人都要加入微软,谷歌这样的大数据研究公司。而是,掌握、应用大数据思维。
【例子1】茶叶生意,请人做一个app,并且通过给予一些优惠券的方式鼓励到访的客户按照。准确了解用户需求,改进生意,推广方式,和顾客建立长期的供货关系。这样不仅能有比较稳定的收入,而且还能因为流通渠道成本的降低提高利用率。
【例子2】现在一些冰箱公司开始考虑将冰箱看成商场里货架的拓展。通过摄像头传感器,可以收集到顾客购买食物的习惯及对食品消耗的程度,通过互联网提示用户补给食物。