《可视化未来:数据透视下的人文大趋势》读书分享
首先,问大家几个问题。一个人的成名是偶然的吗?历史上哪些作家被纳粹审查得最彻底?The United States是从什么时候从复数名词变成单数名词的?如果我们想了解现代人类社会,你会去哪里寻求有力的帮助呢?是顶级的图书馆,一流的大学,还是我们每天都在用的在线社交平台呢?人类历史的演变和未来趋势可以被数字量化吗?
今天和大家分享一本我最近正在读的书——《可视化未来:数据透视下的人文大趋势》。这本书之所以吸引我,首先是因为我从事的是人文学科的工作,数字看似离我很遥远,但在这样一个用大数据说话的社会背景下,人文学科的工作者如何才能紧跟趋势、把大数据为己所用,是我最近比较关注的话题;其次,我们每天都在谈论大数据,那么大数据到底如何影响我们的生活,它可以为我们带来哪些启示和应用的趋势,也是值得我们思考的一个问题。简单来说,这本书的作者利用Google Books扫描的3000万本书籍做了一个叫做NGram viewer(N元词组词频查看器)的工具,通过统计图书中文字的词频,揭示了英语如何演变、词典如何犯错、人们如何成名、政府如何压制思想、集体如何记忆和遗忘,以及文化如何以一种确定性方式运转等问题,并且探讨了如何预测人类未来的可能性。
这本书的内容可能离大家比较远,感兴趣的同学可以看一下,因为这本书举了很多有意思的例子,可以帮助我们从不同的视角来看待一些普遍问题。但今天我主要想和大家分享一下这本书带给我的三点启示:
1. 转变视角,改变方式,世界大不同。大数据给我们提供了一个全新的看待世界的方式,通过这种数据视角,我们能够研究很多有意思的话题。比如,回到我前面的一个问题,一个人的成名是偶然的吗?名望其实是一个很难界定的词语。这本书中的大数据分析(即书中每100万个词中的出现频次)发现,名望的发展是有整体规律的,包括四个阶段:崭露头角、指数级上升、到达名望顶峰、缓慢衰减,但不同时代的人名望发展稍有区别:随着时间的推移,人们崭露头角的年龄逐渐变小,上升的速度在加快,衰减的速度也在加快,唯一没有太大变化的是到达名望顶峰的年龄一般在75岁左右。作者还研究了5类职业:演员、作家、政治家、科学家和艺术家的成名轨迹,为年轻人的职业选择提供了一些参考数据:
(1)演员一般会在30岁左右成名,拥有一辈子时间享受自己的名气;
(2)作家一般在接近40岁成名,但撰写传世佳作的顶级作家最终获得的名望要比演员高得多;
(3)政治家一般在40岁之后、50岁之后甚至60岁之后才达到他们名望的顶峰;
(4)科学家一般在60多岁成名,获得的名望和演员差不多;
(5)艺术家和科学家等待的时间一样长,获得的名望却只有其一半。
当然,这些数据有其时代性和研究范围的局限性,但为我们提供了一个用数字研究社会问题的新视角和新方向。方向大于方法,无论是一个好的研究还是好的提案,都需要问出好问题,然后用合适的方法,得出一个有效的结论。
2. 记录,可知过去,可见未来。易效能人喜欢说的一句话是,没有记录就没有发生。我们现在每天写的晨间日记、日反思、周检视、月度检视、年度检视不仅仅是记录过去发生了什么,也不仅仅是为了搜索信息,更重要的是,大数据可以为我们打开一扇密切观察自己个人生活的窗户,能够帮助我们实现自我。举个简单的例子,如果我们对某个人十年来发的朋友圈进行简单的n元词组分析,那么我们便可以了解到关于他日常生活的许多信息以及变化。比如,他以前的朋友圈会经常提到“聚会”、“酒吧”、“喝酒”这类词,而后来,这些词的频次逐渐下降,而像“健康”、“早睡早起”、“运动”这类词的频次逐渐提高,那么我们就可以知道,这十年里他的生活方式发生了改变,而且也会根据可视化图表得知这些变化是从何时开始的。再比如,如果他以前的朋友圈经常出现不同的女生名字,而后来渐渐地只出现一个人的名字,那么我们也可以知道,从某时起他的情感生活日趋稳定。再比如,如果他以前的朋友圈经常出现消极的词,而现在积极的词汇逐渐增多,那么可以看出,他对生活的态度也发生了改变……我们的人生是悄无声息地不断地在改变的,也许我们意识不到某个阶段的改变,但如果我们多年后用这种方式对我们的生活记录进行检索,我们就会不断地发现自己的变化,重新发现那些曾经对我们很重要的,却慢慢被遗忘、被改变了的东西。这种分析能帮助我们更好地认识自己,发现自己的优势,判断自己的发展方向,慢慢地靠近梦想。
3. 突破思维界限,科学与人文走向融合,抓住小趋势,预见未知。我从小数学就不好,考大学选专业时也毫无悬念地选择了文科。当时我觉得太庆幸了——这辈子终于告别数学了。但没有想到的是,读研究生的时候我“上了贼船”,读个语言学专业也要设计实验,啃统计,分析数据。好在我也survive了,以为就此可以和数学分手快乐了。又没想到的是,现在语料库大数据发展迅速,如果不继续啃,就会跟不上趋势。怎么办?只能继续啃。好不容易学了个基础,AI、Python编程又开始大行其道,让英语专业的孩子们感到岌岌可危,江湖地位不保。作为一名“科研工作者”,如果不会编个实验程序,做个数据分析,都会有点心虚,甚至会寸步难行。就这样,我从一个数学考28分的文科生,活生生地被逼得会编点小程序,会做点小统计,还会给人讲讲小题。目前,数据分析在各个学科领域都开始展示出它强大的力量,让人想不到的是,人文学科和社会科学居然首当其冲。
最后,回到一开始的一个问题。在未来,大数据或许能对人类发展的趋势进行预测。人类一切的思想和行为最终都会记录在语言和文字中,只要有一个合适的计算方法,我们就能从语言数据中观察出人类文化的变迁。同理,数据已经不再属于数据科学家了,来自各行业、各领域的从业者以及政府都应该尽力挖掘数据的力量。在这个时代,人文和科学的边界将逐渐模糊,业界和学界的边界也将被重新定义。我们准备好了吗?