《人人说谎:大数据、新数据以及关于真实的你我,互联网能告诉我们什
这是沃顿商学院赛斯.斯蒂芬斯.大卫德威茨所著2017年5月的新书,主要观点是数据展示出人们更真实的一面,以及大数据可以干什么,不可以干什么。
一、真实的人们
我们都知道一些稍显负能量的话,比如人生如戏全凭演技,人人都生活在一张面具下,等等。事实上,在公众场合、他人眼中扮演成另一种样子,对保持个人心理健康是有一定作用的。但有些时候,我们就会误判别人,有些人甚至自己也会误判自己,可是,骗不了大数据。
别人甚至当事人都不知道的,搜索引擎可能知道。
1、美国人民的性生活频率几何?
这种问题大家是一定会吹嘘一下的。根据一项权威调查显示,仅限于异性恋,美国女性平均每年性生活次数是55次,其中16%的情况下使用了避孕套 ,照此推算美国每年应该用掉11亿个避孕套。而如果调查对象是男性,美国每年会用掉16亿个避孕套。5亿个的差距哪去了?更令人震惊的是,实际美国每年卖出去的避孕套还不到6亿个。
赛斯使用Google的数据,发现“无性婚姻”这个关键词组合的搜索次数比“不幸婚姻”高3.5倍,比“无爱婚姻”要高8倍。人们对婚姻最大的抱怨就是无性婚姻!所以无性婚姻是比人们想象中大得多的问题,只不过在公开场合调查中,人们不愿意说实话而已。
在Google的搜索框前,人们展露出自己真实的一面。
2、男人和女人关心的问题
男性经常问Google的一个问题,是某个重要器官的尺寸是不是太小了,这个问题在男性性相关的问题中排名第一。当然,这个担心过虑了,因为女性似乎并不怎么关心这个问题 ——Google数据显示,女性搜索男性尺寸的频率,大约是男性自己的1/170。而且在女性的这些搜索中,即便是抱怨自己的丈夫或者男朋友的尺寸的,其中有40%是抱怨尺寸太大而不是太小。
女性也有类似的烦恼。出乎绝大多数男性意料的是,女性最关心的一个问题是自己某器官的气味不对。有些女孩甚至认为自己的一生幸福都会被这个气味给毁了。可事实上,男性搜索相关话题的频率,跟女性搜索男性尺寸的频率一样小,而且其中很大一部分也不是抱怨气味不对……
二、厉害的大数据
1、发现规律
大数据能预测一对青年男女关系走向吗?惯用方法是看身高、性格等指标,或者考察双方互动的表情和动作,但有一个新研究,通过分析男女第一次约会全程的对话录音,就能发现重要的迹象。
如果男性对这个女性有兴趣,他会有两个表现。①女性若讲笑话,他会非常配合地笑出来。②男性会控制声调,让声调比较单一化。研究表明,声调起伏不大的男性更有吸引力。男性似乎是无意识地控制声调来展现吸引力。
如果是女方对男的感兴趣呢?她会增加声调的变化,然后说话的语气会更轻,间隔会更短,更愿意多说话。
如果这个女性说了很多“可能”、“我猜”、“有点儿”、“也许”这类词,那基本上表示她对这位男性不感兴趣。
但如果她经常说了很多“我”,我如何如何,非常愿意谈论自己,说明她对这位男性很感兴趣。
如果你想增加自己在对方眼中的吸引力:对男性来说,最好的办法就是接受女性的领导—— 女性讲了笑话,你就笑;如果她谈论某个话题,你就顺着这个话题往下说;如果她说要干什么事情,你要表示支持。这样就能大大增加她对你的好感。
对女性来说呢?注意,注意,注意,数据显示女性根本不需要对话技巧—— 男性最后选择的总是外表好看的。
2、量化效应
离婚会不会让人更快乐?类似的问题,一个居住在阴冷潮湿地区的抑郁症患者,为了治疗,他是不是应该搬家到温暖的地方去呢?大数据可以进行量化评估。
Google的搜索数据显示,住在温暖如夏威夷的人,搜索“抑郁症”的比率,比像芝加哥这样的寒冷地区低了40%。而最好的抗抑郁药物,也只能让抑郁症的发病率减少20%。
那如此说来,如果你一到冬天就抑郁,最好的办法不是吃药,而是搬到充满阳光的地方去,效果大约是吃药的两倍。
3、挖掘真知
①暴力电影与暴力
暴力电影增加暴力了吗?岛国爱情动作片诱发强奸了吗?数据显示暴力犯罪反而减少了。是因为有暴力倾向的人都去电影院看电影,没时间犯罪吗?
数据显示,晚间电影结束之后,犯罪率也是下降的。估计和很多人犯罪是因为喝了酒,而在电影院看电影只能喝可乐有关。
结论有点反直觉,暴力电影根本没有“教会”青少年犯罪,而是占用了青少年的时间和精力,使他们没有时间去犯罪!
②名校与学生
此时高考刚过,分数还没下来,我就有家人急得不得了,在我看来,大可不必。
是名校培养了优秀学生,还是优秀学生撑起了名校?如果把接下来20年中国高考前三百名都召进我办的大学,我的学校能不能超越北大清华?
全美国排名第一的公立高中史岱文森高中每年在全纽约举行一次统一的入学考试,27000人报考,录取率只有5%。经济学家跟踪了两组真实水平几乎无差别的学生:有些考生是只差一两分没考上史岱文森高中,有些考生是只比录取线高了一两分而考上了。
结论是,这两组学生的大学先修课程分数、SAT成绩、以及他们最后去了哪些大学,没有任何区别。连微小的差距都没有!
即,如果你差一两分落榜了,千万别在意,考没考上对你的前途根本没影响。
同样,考察那些被名校录取了但是没有去名校,选择了一个一般学校的人。答案也是没什么影响。经济学家跟踪调查显示,这些有能力去名校而没去名校的人,日后的收入水平跟去了名校的人基本一样。
如此说来,名校、名师、校友会,这些光环加持,至少对个人收入来说,没有什么影响。牛人到哪里都是牛人。名校并没有“培养”牛人,名校只不过“选择”了牛人。
三、不能干什么
前面讲了很多大数据的厉害之处,其实大数据也不是万能的,第一种情况是预测行为影响预测结果,比如股市,大数据也没办法;第二种是没有数据,或者数据维度太少,或者维度太多数据太少,都不行。比如:我在但丁、彼得拉克、薄伽丘号称文艺复兴三杰(文学)身上,发现了一个共同点——“因为爱情”,那我能说求而不得总能激发出创作灵感吗?不能。数据量太少,马上搬到艺术三杰达芬奇、米开朗基罗、拉斐尔身上,你会发现是嫉妒……
又如你去找一千个硬币,在两年内每天定时把这一千个硬币一个一个地抛,记录每个硬币的正反面,并且记录当天沪指涨跌。两年后,你肯定能找到至少有一个硬币,当它朝上时指数大部分时间上涨。这能说找到了一枚幸运硬币,从此可以预测涨跌?不能,纯属巧合。一千个硬币就是“维度太多”,时间两年则是“数据量太少”,难免会有一个与指数有比较强的正相关。
但最麻烦的最纠结的其实是大数据带来的道德困境,这其实是每一种新技术出现的必然结果。
比如,了解大数据力量的人不会在Facebook上随便点赞,因为点赞会暴露一个人的智商。大数据显示,喜欢莫扎特、雷暴雨、卷曲的炸薯条的人智商高,而喜欢哈利戴维森摩托车、乡村音乐和“我爱做妈妈”网站的人智商比较低。那如果你通过记录和观察,洞悉了朋友圈很多人的智商,接下来如何与他们相处?
类似的困境很多。如果Google发现一个人在大量搜索怎么杀人或者怎么自杀的信息,那Google应该把这个事报告给警察吗?
恐怕不应该。因为数据显示,搜索这种信息的人非常非常多,但实际上的杀人案和自杀案远远没有这么多。如果有点风吹草动就报警,警察怎么也忙不过来。
而且搜索信息毕竟也算隐私。如果将来大数据技术进一步发展,真正能够判断明显的杀人或者自杀动机时,大数据公司怎么办?掌握这条信息的技术人员怎么办?出了问题如何追责?
四、一点点想法
1、现在世界上大多数人都“入网”了,按《第七感》里的观点,每个人都面临一个“三难选择”,在高速、共享和安全之间选两个,目前看我们放弃了安全——对个人而言就是将个人信息、偏好都“和盘托出”……没办法,我也想过时不时来点“干扰”,比如在购物APP里乱点一通,这无非就是增加了一点机器运算量,我可是实实在在在杀时间消耗卡路里,何况,下步软件智能推荐的都不是我想要的,我不是自讨没趣吗?改变不了,那就和大数据做朋友吧,反正,技术与人类一直都在相互驯化……
2、用不着太关注自己。这是关于男女搜索隐私话题给的启示。每个人都太过关注自己的身体有没有缺陷,以至于根本没心思注意对方的身体有没有毛病。我就想起来听说过的一个实验,让人故意穿一件很不合适的衣服去上班,穿这个衣服的人非常担心别人怎么看他,可是一天下来,根本就没有几个人注意到他的衣服不对。所以,拿自己的真实情况和别人朋友圈状态比就是自讨没趣。事实是此恨人人有,家家有本难念的经,另一个事实是别人根本就没注意到你的“缺陷”。
3、感觉这本书比前段时间读的《意会》要低级一点,比如这些大数据,就只是《意会》里的薄数据,而非厚数据,也许只有有了一定量的厚数据及其分析模型,我们才能真的搞懂人们这些行为的源动机。当然,我们运用大数据不妨借鉴《意会》提供的招数,比如就搜索器官问题而言,用符号学分析是哪些特定人群喜欢搜索,用话语理论分析人们一般在什么时段和场景搜索,用语言理论分析这些人是不是在聊天中反而更喜欢夸大自己……
此文为万维钢《精英日课》读书笔记