北大的"计算社会经济学"是什么? 二篇顶级文
今天,计量经济圈主要引荐两篇关于“计算社会科学”相关的综述文章。这门最新的跨学科课程,已经出现在北京市几所知名高中课堂上了。作为致力于推进社科前沿的学术群体,咱们也希望通过以下两篇文章系统介绍一下计算社会科学。
计算社会科学(Computational social science)指的是在社会科学中采用计算机运算方法的学术分支,运算用以建立模型、模拟、分析社会现象。次分支包括计算经济学、计算社会学、自动媒体分析等等,内容则专注在透过模拟、建模、网络分析、媒体分析等观察社会与行为关系及互动。
介绍
计算社会科学指的是将计算的和算法的工具应用于关于人类行为的大规模数据。大数据时代,越来越多的人类活动在各种数据库中留下痕迹,产生了关于人类行为的大规模数据。这些数据为社会研究提供了新的可能,通过对这些数据的分析,可以获得人类行为和社会过程的模式 。
计算社会科学演化自科学方法的基础:实证研究(如利用大数据分析数位足迹)以及科学理论(如利用电脑模拟建立社会模型)等等。计算社会科学是一种多学科综合的方法,透过先进的资讯科技观察社会,特别是资讯的处理。电脑用于分析社会网络、社会地理系统、社群媒体、传统媒体内容等等。
方法
实证研究(Empirical Research)是通过直接和间接的观察或经验获得知识的方式。可以量化或质性分析的经验证据(记录的直接观察或经验)。通过量化或有意义的质性形式,研究人员可以回答实证问题,该问题应能明确界定和用收集到的证据(通常称为数据)解答。研究设计因领域和正在调查的问题而不同。不能在实验室设置中进行研究的,特别是在社会科学和教育领域内的问题,许多研究人员将质性和量化相结合,以更好地回答问题。
在某些领域,量化研究可能会始于从一个研究问题(例如,“在学习一个单词列表的过程中听声乐对这些单词以后的记忆有影响吗?”),这是在实验室通过实验测试,量化研究。通常情况下,研究者具有一定的理论将主题置于研究之内。基于这些理论的论述,或假设,将提出(例如,“听声乐学习一个单词列表。有负面影响”)。从这些假设推导出特定事件的预测是派生的(例如,“学习一个单词列表,一边听声乐的人会比静默学习记得少。”)。然后这些预测可以用一个合适的实验测试。根据实验的结果,将确定是否支持基于该理论的假设和预测。
计算机模拟,又称为计算机仿真,是指用来模拟特定系统之抽象模型的计算机程序。计算机模拟的发展与计算机本身的迅速发展是分不开的。它的首次大规模开发是著名的曼哈顿计划中的一个重要部分。在第二次世界大战中,为了模拟核爆炸的过程,人们应用蒙特·卡罗方法用12个坚球模型进行了模拟。计算机模拟最初被作为其他的方面研究的补充,但当人们发现它的重要性之后,它便作为一门单独的课题被使用得相当广泛。计算机模拟从运行数分钟到数小时到数天。通过计算机模拟被模拟事件的规模已远远超过使用传统纸和铅笔数学建模任何可能的(甚至想像)。
导语
随着数据量的日益增“大”、计算能力的增强,研究者利用“计算社会经济学”方法,可以更好地理解社会经济系统的组织结构,及时估算出社会经济状态,这对经济发展具有重要意义。
电子科技大学的周涛、高见和瑞士弗里堡大学的张翼成,近日在 Physics Reports 期刊上发表了一篇题为“Computational Socioeconomics”的综述,着重介绍计算社会经济学(Computational Socioeconomics)这一新兴的跨学科研究领域。本文将通过解读这篇论文,来介绍这个研究领域的数据来源、计算工具方法、理论模型和新应用。
计算社会经济学:
大数据助力下的社会科学新篇章
从定性到定量的研究是诸多学科所经历的发展历程,以物理化学为代表的自然科学是定量研究的典范。可是与自然科学相比,社会科学的定量化研究起步较晚。
在社会科学、经济学中定量研究是以数据为基础,以统计学为研究手段,对社会经济的现象、过程和结构进行实证研究的研究方法。尽管与自然科学相比,社会科学的研究对象更为多元复杂,定量研究已经让社会学具备了“事后诸葛亮”的能力。然而,基于此构建出来的模型,对社会经济的未来并不具备良好的预测能力。随着信息技术的发展,研究者获取数据和处理数据的能力都有了显著的提升,这也促进了社会经济定量研究的进一步发展。值得注意的是,信息化浪潮所带来的新数据与传统的统计数据有着明显的不同:
一、数据的形式不仅是传统的统计数字,还包含了大量非结构化的多媒体数据。这就意味着必须把现代的数据挖掘和机器学习技术应用到社会科学中;
二、数据的规模和维度,数据产生的速度等都不可同日而语。相比于以前以年、季度、月为单位的数据统计模式,网络时代可以让研究者实时地收集全体尺度数据。
这些都是“大数据”的典型特征。随着数据量的日益增“大”、计算能力的增强,研究者能够更好地理解社会经济系统的组织结构,及时估算出社会经济状态,这对感知社会经济态势和理解社会经济规律具有重要的意义。因此,电子科技大学的周涛、高见和瑞士弗里堡大学的张翼成,近日在 Physics Reports 期刊上发表了一篇题为“Computational Socioeconomics”的综述中,着重介绍了名为计算社会经济学(Computational Socioeconomics)的跨学科新研究领域。文章中介绍了这个新领域的研究数据来源、计算工具方法、理论模型和一些新的应用场景。
论文题目:
Computational Socioeconomics
论文地址:
https://www.sciencedirect.com/science/article/abs/pii/S0370157319301954
周涛和高见认为,计算社会经济学中有三个要素极为关键:定量化、真实数据、大规模。第一是“定量化”,强调用数值而非描述来刻画问题和呈现结果,定量化是研究方法是否科学的标志;第二是“真实数据”,强调理论模型必须要服从真实数据,以对真实数据的解释和预测能力为评价准绳。经典的经济学理论陷入了优美程度大于实用程度,理想化超过了现实化的窘境。第三是“大规模”,强调尽可能获取能够直接反映全体的数据样本。数据样本规模小,有时候带来的不仅仅是偏差,还可能是完全错误的结论。
图中示意出了整体的样本规模(白色)、容易获取的数据(浅蓝)、和一小部分高价值但是不容易获取的数据(深蓝)三者之间的关系。
周涛和高见认为可以通过精心设计好的算法程序,结合全体尺度易获得数据,少量难以获得的高价值数据和机器学习算法,去推断全体尺度难以获得的高价值数据,是计算社会经济学研究中很有代表性的一种新方法,体现了社会科学和计算机科学理念和方法的深度融合。
全球经济发展中
的不均衡与复杂性
长期以来,揭示不同地区的经济发展状况都是社会经济学的重要研究课题,利用卫星遥感获取的夜间灯光(nighttime lights, NTLs)卫星影像为研究一个地区的经济活跃程度提供了有效的辅助信息。一个地区夜间越亮,则说明这一地区越富有。特别是在统计数据资料缺乏的情况下,尤其是在一些欠发达地区,卫星遥感数据就具备极大的潜力。
利用卫星夜间光源数据绘制的贫困人口比例地图,颜色越深表示贫困人口的比例越高。
结合上现代的机器学习技术,在即便是NTLs 不充足的地方(贫困地区夜间整体偏暗),可以利用白天的遥感影像数据与夜间图像进行迁移学习。由此,将白天卫星遥感图像所包含的景观信息和夜间 NTLs 所包含的经济信息就建立起了关联。
利用 CNN 通过卫星遥感数据预测经济活动
自从 2009 年以来,有学者提出了一个新的衡量国家经济实力的指标 经济复杂性系数(Economic Complexity Index,ECI)。这一指标是根据国家间进出口数据绘制得到的“国家-产品”二部图网络,再经过迭代运算得到的指标性数据。同样,根据“国家-产品”二部图网络构建出的 Fitness 指标能够预测一个经济体未来的发展趋势。
Fitness-人均GDP变化趋势图像,横坐标是 Fitness 指标、纵坐标是人均 GDP
我们可以把上图分为两个区。左侧,当 Fitness 指数很低、经济不够复杂的时候,图像呈现出混乱的现象,也无法给出准确的预测;而对于右侧而言,当经济复杂性很高的时候,经济就处于一个“平流层”的区域中,这时的经济发展趋势、GDP 就可以被很好地预测。
区域经济发展
随着我们能够掌握越来越多的“大”数据,高精度的数据有助于我们在城市量级上去刻画地区的经济发展水平。前文提到的夜间灯光(NTLs)数据,在城市这种相对小的尺寸下也适用。麦吉尔大学的Naizhuo Zhao等人就利用 NTLs 数据绘制出了华南地区“像素级”的 GDP 数据。
中国华南地区“像素级”GDP地图
众所周知,随着互联网的发展,特别是随着智能手机而兴起的移动互联网,线上的网络社交生活已经成为了影响日常生活不可忽视的一部分,以布莱恩·阿瑟的话来说,这已经成为了一个虚拟的经济体。因此,在线社交网络分析也得到了越来越多的关注。此外,在线社交网络数据具备着采集成本低、覆盖范围广泛、实时性强等优势。研究者已经也把相关数据用于进行社会经济学分析。
周涛的研究团队曾把 2009 至 2012 年间的近 2 亿名微博用户的注册地区进行了统计。
微博用户的注册地区分布(左图),和 GDP 分布情况(右图)(以地级市为统计单位)
如上图所示,在一些地区社交网络用户的分布和GDP分布情况存在一定的差异。换句话说,通过社交数据分析出的某些城市的经济情况和 GDP 反映出的经济情况存在出入。由此研究者设计出了一个通过社交数据预测 GDP 的算法,研究者意识到,在某些 GDP 较高的地区经济多样性较差,对能源矿产资源的依赖过重,而事实上,这些地区在 2013 年都经历了经济下滑。
不仅仅社交网络的数据能够解释GDP 的发展趋势。周涛的研究团队利用基于微博数据的信息流动(关注和转发等)和基于简历数据的人才流动(工作地点变化),绘制出了不同区域间信息流动的方向和人才流动的方向。
微博信息流示意图(左图)和(简历)人才流示意图(右图)
研究者发现,二者都能有效的对经济发展做出预测,人才流动网络的样本数据仅为信息流动网络的样本数据的 1/3000,但人才流动网络的结构对 GDP 的解释能力更强。
个人经济预测
计算社会经济学的一大优势即体现在能从不同的尺度上,分析预测不同研究对象的经济情况。计算经济学的研究方法,不仅仅对宏观区域经济的发展状况评估,也能对微观个体的经济情况进行估计。在对个体进行的研究中,研究者最主要使用的两类数据是移动电话(mobile phones, MPs)和社交网络( social media, SM)。
纽约城市大学的Shao-Jun Luo等人做过一项研究,把拉丁美洲每个人的手机通信数据绘制成一个巨大的社交网络(该网络一共包含一亿零七百万的手机用户)。
经济水平处于最顶层的 1% (左侧)和最底层的 10%(右侧)的通信网络
通过上图我们可以看出,经济水平高的手机用户,社交网络明显更广阔,更多样;而相对贫穷的用户的社交网络则更加集中,缺乏多样性。下图则展示了两种不同类型人的社交关系网络。
经济水平处于最顶层的 1% (左侧)和最底层的 10%(右侧)的人际关系网络( ego-network)。从图中可以明显看出“高端人士”的社交生活更加丰富多彩。
本综述论文的作者周涛、高见也曾在 2018 年做过一项有趣的研究,他们没有把预测个人经济水平作为研究目的,而是通过分析在校大学生行为数据来预测学生的学习成绩。研究者利用学生校园刷卡的数据,分析学生日常生活的规律性,并由此来预测学生的学业成绩。
利用学生行为数据预测学业成绩。从左到右的四个步骤分别是:1. 学生校园卡使用记录;2.提取日常行为数据;3 分析行为的规律;4 预测学生学业表现(GPA)。
应急管理与险情急救
计算社会经济学的一个有力的应用就体现在对于紧急突发事件的预测和响应。同时为管理者提供有效的决策参考。
在 2010 年 海地大地震发生后, 吕欣等人利手机 SIM 卡信息。统计分析出了当地的人口迁移情况
海地大地震后灾后人口迁移情况,红色曲线表示首都太子港(PaP)的人口 迁移(减少)情况。
通过上图我们可以发现,在地震生后,人口发生了锐减,而进一步的分析可以发现离开太子港的人都去到了他们有人际联系的其他城市。这一点也为灾后的人口流动趋势提供了有利的帮助。
计算社会经济学的前景
作为一门跨学科的新兴领域,计算社会经济学有着传统学科所无法比拟的优势。但论文作者也指出了这一领域存在的问题。
一、数据的质量,特别是真实性难以得到保障。虽然,相比于模拟仿真而言,来源于真实世界的数据确实是计算社会经济学的优势所在。但来自社交媒体的数据的真实性也往往被人质疑。很多社交媒体中用户的相当一部分都不是真人,而是机器人。被机器人操纵的网络议题,会影响人们的看法。从这些混杂了机器人行为在内的数据出发所得到的结论,可能与真实情况偏差很大。
二、研究结果的适用范围和相关性有限。计算社会经济学目前所使用的数据源所覆盖的人群数量虽然在整个人口中都占有相当比例,但是并不能保证这个样本具有随机性,能够真正代表整个人口。例如特别贫困的人、小孩子和老人对于互联网和移动互联网的参与度都很低,不太容易被上述数据覆盖到。另外,社会经济问题会受到所在地宗教、文化和政治的影响,因此在一个地方适用的结论,不一定在其他地方也适用。
为此,周涛、高见和张翼成提出了计算社会经济学未来研究的五个发展方向:
尝试设计具有很强解释和预测能力的新指标。
利用数据驱动的方法论,对传统社会经济学理论的正确性和适用性进行重新分析。
发现因果关系,形成理论洞见。
要通过控制实验验证新的理论成果。
将理论和实证分析的方法与结果用于实践。
被大数据与人工智能注入新活力的计算社会经济学,仍然处于起步阶段,但可以预料到的是,这一交叉领域的未来必将丰富多彩。会让不同学科背景的研究者进入这一领域,为社会科学带来新的研究范式。
长按以上二维码可以阅读该文全文
第二篇
Science经典回顾:计算社会科学诞生宣言
导语:
计算社会科学诞生至今,已有将近10年。在自然科学领域已经广泛应用大数据、分布式计算等方式提高研究质量的今天,社会科学领域涉及到的核心数据仍然被少数机构所拥有并创造着巨大的价值。而与此同时,数据隐私、制度规范等问题也在考验着计算社会科学的发展。计算社会科学该向何处去?重读经典,在历史中寻找答案。
来源:science.sciencemag.org
原题:Computational Social Science
计算社会科学的诞生
一场信息革命,一次技术飞跃,一门新兴学科诞生,2009年2月6日,是计算社会科学界值得纪念的日子。15名来自社会科学、计算机科学和物理学的重要科学家联名在Science上发表该篇文章《Computer Social Science》,宣告计算社会科学的诞生。
21世纪,我们生活在网络之中,脸书、微信、电话和邮件一秒钟沟通起了你我他,一封封往来的信件在互联网中留下印记;信用卡、公交卡记录了你我的地域轨迹和消费支出;在车头我们安装摄像机记录行车状况,而政府在公共场所各处装上监控记录犯罪证据。我们虽生活在真实的生活当中,但却在虚拟的世界留下种种数字印记,这些印记改变了我们的生活,改变了我们对社会的理解,改变了科学研究的进程。
搜集和分析大数据的能力已经彻底改变了自然科学,比如生物学和物理学。然而,数据驱动的计算社会科学发展却极为缓慢,在经济学、社会学以及政治学的重要期刊上都很少有计算社会科学的相关文章。但不容忽视的是,在一些知名的互联网公司Google、Yahoo和政府部门比如美国安全局中,正在开展计算社会科学的研究。
计算社会科学也许会仅仅集中在私人公司和政府部门内部。又或者,某些拥有特权的学术研究者将使用这些独一无二的“秘密”数据,从而发表无法被别人评价和复制的论文。从长远来看,以上这两种情况都不利于知识的积累、验证与传播。让我们试想,如果在一个开放的学术环境下,计算社会科学将会如何增强我们对个人和集体行为的理解?
计算社会科学关心的问题
至今,关于人类互动的研究还主要依赖于某一特定时段个人填答的调查数据。而技术发展带来的海量数据[1],能够极大的改善这一现象。例如,往来的电子邮件数据中展示了不同的时间段里人们之间互动关系的结构和内容,据此我们可以研究人们之间的关系如何随时间而变化,帮助我们思考一系列人类互动行为的问题:一个团体内部之间的关系究竟是怎么样的,是已经达到了稳态很少出现变化,还是他们之间的关系一直发生着剧烈的波动[2]?优秀的团队和个人具备怎样的互动模式[3]?
同样,我们还能够考察宏观的社会网络[4],观察它如何随着时间演变。移动电话公司,大型互联网公司Google、Yahoo拥有大量的用户交流信息数据,这些数据能不能描绘出一张社会通信模式的复杂图景,而这张图景又如何影响经济生产力和公共健康?手机使得追踪人类活动变得方便快捷[5,6],同时人类活动数据可以帮助我们研究流行病如何通过个体传播等重要问题。
总之,互联网提供了一个全新的途径来理解人们之间的连接[7]。仔细思考一下,在刚刚过去的政治选举时期,如果能够追踪被火热传播的论点、谣言、政治立场或者博客圈中的一些谈论[8]以及网络上的“冲浪”行为[9],每一个选民最关心的问题将会变得显而易见。
图1:来自博客圈的数据。图1显示的是一个政治博客社区内的链接结构(从2004年开始),其中红色节点表示保守派的博客,蓝色节点为自由主义博客、橙色线代表从自由主义连接到保守主义,紫色线代表从保守主义连接到自由主义。每个博客的大小反映了其他博客链接到它的数量。转载自参考文献[7]
互联网所营造的虚拟世界,自然而又轻松的捕获了个体行为的完整记录,这为原本不可能实现的研究提供了丰富的数据基础[10]。例如,这些完整的个人记录帮助我们了解一个人在社交网络中的位置是如何影响他们的喜好、心情、甚至是身心健康[11]。自然语言处理技术的发展(NLP)也大大提高了我们分析大量文本数据的能力[12]。
未来,我们希望,对社会的认知不再通过手动记录面对面交流者的信息来实现,而是通过各种各样的电子设备自动生成和记录社交信息。总而言之,计算社会科学正在以前所未有的广度、深度以及规模搜集与分析数据,但与此同时,计算社会科学的兴起与发展却遭遇着重重阻碍。
计算社会科学研究障碍
在研究范式上,现有的解释人类行为的理论和范式是在无法获取和处理几千万兆的人类交互信息数据的时候发展和建立起来的。比如说,基于几十个人某一时刻的数据而建构的社会网络理论如何能解释上百万人之间的相互关系呢?关于人们如何互动的大量新兴数据可以为研究人类的集体行为提供新的视角,但我们目前社会科学的研究范式并不一定会接受。
推进计算社会科学还存在着很多制度性障碍。计算社会科学与物理和生物学的研究问题不同,在观察与干预研究对象过程中也存在着不同的挑战。在物理学和生物学实验中,夸克和细胞不像人类一样,会因为别人的观察而不自觉或者刻意的掩盖自己的行为,它们乖乖的听从人类的干预而不会反抗。
就基础条件而言,从社会科学到计算社会科学所要解决的困难要比从生物学到计算生物学之间克服的困难大得多,究竟为什么会这样呢?主要是从社会科学到计算社会科学的发展需要解决分布式监控、数据使用许可权获取和加密等问题,在社会科学领域中这些资源都较为缺乏。
也许最令人头疼的问题还是数据的获取和保护,目前很多研究所需数据都涉及到个人隐私。以美国AOL公司事件为例[13],在2006年8月,AOL公司公布了2006年3月1号到5月31号这3个月用户的真实搜索记录,包括1900万搜索,1080多万不一样的搜索词,还有65万8000个用户ID(美国AOL公司是一家在线信息服务公司,可提供电子邮件、新闻组、教育和娱乐服务,并支持对因特网访问,2015年被威瑞森通信(Verizon Communications)收购)。
虽然用户的ID是匿名的,但如果你足够细心认真的话,还是可能从这8000多个用户中发现足够多的信息。有一位记者就从搜索的地址和姓名中快速找到了一位62岁的老太太,并且老太太证实了那些罗列出来的搜索词确实是她的。你还可以从搜索词中看到这样一些关键词(来源:https://www.seozac.com/other-se/aol-data/)
1.怎样炸掉一栋楼
2.怎样给别人下药
3.怎样制造炮弹
4.怎样攻入别人的电脑
5.怎样杀死太太
6.怎样杀人能够不留痕迹
7.......
AOL公司做出的这件蠢事给社会带来了一场大混乱,虽然该网页几个小时之后就被撤下,但数据却被网友们在互联网上广泛传播,这也为私人公司擅自分享私人数据敲了警钟。
设想现在,如果谷歌、百度、天猫、腾讯、京东等互联网巨头突然公布了所有人的搜索记录、聊天记录、购物记录等,更不幸的是,如果你浏览器的登录昵称是你的真实名字,同时你多次在浏览器中搜索你家附近的加油站、超市等信息,并且在天猫购物平台中多次输入你的地址,那么你可能很快就被定位。根据你的搜索记录,你将被贴上各种各样的标签,“房奴”、“彩妆迷”以及“二次元”等。更可怕的是,你的电话可能会被各种销售公司打爆,生活将变得一塌糊涂。
因此,为了保护个人的数据隐私和企业的利益,为了能让这些数据发挥作用从而促进科学研究的进步,企业和科学家之间建立起合作共赢的数据分享模式是非常有必要的。总体来说,妥当地处理隐私问题是非常必要的。最近美国国家研究委员会有关地理信息系统的报告就特别指出,即使是非常仔细地匿名化数据,还是有可能重新分析出个体的隐私数据[14]。
去年,美国国家健康局和惠康信托基金会突然停止了一些基因数据库的在线获取功能[15]。尽管这些数据只是非常简单地报告了某些特定的遗传标记的总频率,根本没有包含个人信息,一些研究者仍然认为,基于数据库中每个个体的大量数据,依照现有的统计技术,依旧能够重新定位到个体[16]。
因为一次偶然的违背个人隐私事故的发生,就可能使得社会对信息共享深恶痛绝,甚至会颁布一些扼杀计算社会科学发展的法律条文。此时我们迫切需要制定合理的规章制度,既能够降低信息泄露风险,又可以保留数据的研究价值。作为学术界自我管理的核心制度,美国机构审查委员会(IRB)需要加强他们的科技知识以了解新技术对于个体的潜在侵权和伤害,因为他们目前的规定中有关伤害的定义已经难以评估这些新型的伤害。IRB的审查员们现有的技术也很难判断数据有没有“真正的匿名化”。除了上述问题外,IRB可能有必要建立起一个处理数据安全问题的部门。目前,已经有很多私人企业手中握有大量的数据,但却没有一个统一的标准来保护数据安全。如果科学家们要用这些数据做研究,就需要考虑到数据的隐私问题,开发技术保护个人数据的隐私,这些技术将会反过来帮助政府和公司保护数据安全和客户的隐私[17]。
结语
与其他新兴交叉学科一样(如:可持续发展科学),若要发展新兴的计算社会科学,就需要建立新的范式培养新的学者。大学中终身教职评定委员会和各个期刊的编辑部需要积极地鼓励新兴学者在跨学科建设方面做出的努力。最开始,计算社会科学的发需要社会科学和计算机科学的学者组成团队一起努力,但来自不同学科的学者努力是远远不够的,计算社会科学的发展最终还是取决于学术界愿不愿意培养计算社会科学家、具有计算相关知识的社会科学家或者是具有社会科学知识的计算机科学家团队。好在认知科学的出现为计算社会科学的发展提供了一个很好的范例。认知科学的研究涉及从神经生物学到哲学到计算机科学等各个领域。它吸引了大量资源投入来创建一个共同领域,并在上一代为公共事业创造了巨大的进步。我们认为计算社会科学具有类似的潜力,值得进行类似的投入。
参考文献:
[1]: D. Roy et al., “The Human Speech Project,” Proceedings of the 28th Annual Conference of Cognitive Science Society, Vancouver, BC, Canada, 26 to 29 July 2009.
[2]: J. P. Eckmann et al. Proc. Natl. Acad. Sci. U.S.A. 101, 14333 (2004).
[3]: S. Aral, M. Van Alstyne, “Network Structure & Information Advantage,” Proceedings of the Academy of Management Conference, Philadelphia, PA, 3 to 8 August 2007.
[4]: J.-P. Onnela et al., Proc. Natl. Acad. Sci. U.S.A. 104,7332 (2007).
[5]: T. Jebara, Y. Song, K. Thadani, “Spectral Clustering and Embedding with Hidden Markov Models,” Poceedings of the European Conference on Machine Learning, Philadelphia, PA, 3 to 6 December 2007.
[6]: M. C. González et al., Nature 453, 779 (2008).
[7]:D. Watts, Nature 445, 489 (2007).
[8]: L. Adamic, N. Glance, in Proceedings of the 3rd International Workshop on Link Discovery (LINKDD 2005), pp.36–43;
http://doi.acm.org/10.1145/1134271.1134277.
[9]: J. Teevan, ACM Trans. Inform. Syst. 26, 1 (2008).
[10]: W. S. Bainbridge, Science 317, 472 (2007).
[11]: K. Lewis et al., Social Networks 30, 330 (2008).
[12]: C. Cardie, J. Wilkerson, J. Inf. Technol. Polit. 5, 1 (2008).
[13]: M. Barbarao, T. Zeller Jr., “A face is exposed for AOL searcher No. 4417749,” New York Times, 9 August 2006, p. A1.
[14]: National Research Council, Putting People on the Map: Protecting Confidentiality with Linked Social-Spatial Data, M. P. Gutmann, P. Stern, Eds. (National Academy Press, Washington, DC, 2007).
[15]: J. Felch. “DNA databases blocked from the public,” Los Angeles Times, 29 August 2008, p. A31.
[16]: N. Homer, S. Szelinger, M. Redman, D. Duggan, W. Tembe, PLoS Genet. 4, e1000167 (2008).
[17]: M.V.A. has applied for a patent on an algorithm for protecting privacy of communication content.
http://www.davidlazer.com/sites/default/files/publications/12_DL_Science_Feb_09_%26_Supporting.pdf
下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。