《大数据时代》读书笔记-01更多

2015-07-29 本文已影响45人毅然v

01更多——不是随机样本，而是全体数据

统计学的一个目的就是用尽可能少的数据来证实尽可能重大的发现。29

在对一个量（例如年收入）进行估计的时候，如果总体可以分为很多层（例如所有人口按照不同年龄或者不同职业分成很多层），一种直观的想法是每一层随机抽样的样本大小应该正比于这个层所包含人口的多少。奈曼指出，最优分配并非如此简单，实际上，层越大，层内待估计量的变化越大，该层抽样的单位费用越小，则该层的抽样就应该越多。33

采样分析的精确性随着采样随机性的增加而大幅提高，但与样本数量的增加关系不大。为什么会这样？原因很复杂，但是有一个比较简单的解释就是，当样本数量达到了某个值之后，我们从新个体身上得到的信息会越来越少，就如同经济学中的边际效应递减一样。33

边际效用递减，是指在一定时间内，在其他商品的消费数量保持不变的条件下，当一个人连续消费某种物品时，随着所消费的该物品的数量增加，其总效用(total utility)虽然相应增加，但物品的边际效用（marginal utility, 即每消费一个单位的该物品，其所带来的效用的增加量）有递减的趋势。

认为样本选择的随机性比样本数量更重要，这种观点是非常有见地的。33

随机采样取得了巨大的成功，……它本身存在许多固有的缺陷。它的成功依赖于采样的绝对随机性，但是实现采样的随机性非常困难。一旦采样过程中存在任何偏见，分析结果就会相去甚远。34

随机采样不适合考察子类别的情况。34

当人们想了解更深层次的细分领域的情况时，随机采样的方法就不可取了。（你设想一下，一个对1000个人进行的调查，如果要细分到“东北部的富裕女性”，调查的人数就远远少于1000人了。即使是完全随机的调查，倘若只用了几十个人来预测整个东北部富裕女性选民的意愿，还是不可能得到精确的结果啊！而且，一旦采样过程中存在任何偏见，在细分领域所做的预测就会大错特错。）35

大数据与乔布斯的癌症治疗——他与癌症斗争的过程中采用了不同方式，成为世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。对于一个普通的癌症患者，医生只能期望他的DNA排列同试验中使用的样本足够相似。但乔布斯的医生们能够基于他的特定基因组成，按所需效果用药。如果癌症病变导致药物失效，医生可以及时更换另一种药，也就是乔布斯所说的，“从一片睡莲叶跳到另一片上。”乔布斯开玩笑说：“我要么是第一个通过这种方式战胜癌症的人，要么就是最后一个因为这种方式死于癌症的人。”36

Xoom与跨境汇款异常交易报警——……单独来看，每笔交易都是合法的，但是事实证明这是一个犯罪集团在试图诈骗。而发现异常的唯一方法就是，重新检查所有的数据，找出样本分析法错过的信息。39

大数据是指不用随机分析法这样的捷径，而采用所有数据的方法。39

社会科学是被“样本=总体”撼动得最厉害的学科。随着大数据分析取代了样本分析，社会科学不再单纯依赖于分析实证数据。这么学科过去曾非常依赖样本分析、研究和调查问卷。42

如果把一个在社区内有很多连接关系的人充社区关系网中剔除掉，这个关系网会变得没那么高效但却不会解体；但如果把一个与所在社区之外的很多人有着连接关系的人从这个关系网中剔除，整个关系网很快就会破碎成很多小块。……谁能想象一个在关系网内有着众多好友的人的重要性还不如一个只是与很多关系网外的人有联系的人呢？这说明一般来说无论是针对一个小团体还是整个社会，多样性是有额外价值的。这个结果促使我们重新审视一个人在社会关系网中的存在价值。43

作者对这项研究的理解稍有不妥。该研究并未关注从网络中移除节点（手机用户）的情形，而是考察从网络中移除链路（通话关系）对网络结构的影响。借鉴渗流理论，作者发现，移除弱关系而非强关系反而会导致快速破碎成若干小碎片。

《大数据时代》读书笔记-01更多

猜你喜欢

热点阅读