科学知识图谱Knowledge Graph信息计量学其他

信息计量学|CiteSpace使用教程

2018-06-01  本文已影响6939人  loonytes

--更新20181123--
5.3.R4以后的版本可以从SourceForge下载及获取相关信息资源:citespace
以后SourceForge将作为CiteSpace的主要发布和交流平台,陈超美博士的科学网与使用者进行交流也将转移到这个网站,大家可去此网站下载最新资源使用。
--原文--
学习citespace的过程中觉得这个软件有优点也有缺点,在阅读文献的时候发现软件的滥用情况较为严重,每种功能的使用情况都有很大的差异,本文结合了自己在使用citespace过程中的体验,梳理总结了citespace的用法。本文内容力求简明实用,因此会采用一些非学术性描述。

基本情况介绍

Citespace 是美国雷德赛尔大学信息科学与技术学院的陈超美博士与大连理工大学的WISE实验室联合开发的科学文献分析工具。 主要是对特定领域文献进行计量,以探寻出学科领域演化的关键路径及知识转折点。

软件可以在官网进行下载

软件运行需要java环境

CiteSpace理论知识

本部分的内容主要是阐述CiteSpace被开发出来的基本设计理念。仅追求应用的使用者可以跳过本部分,若想了解软件背后的设计理念可继续往下读。

CiteSpace的设计理念分为哲学角度和概念模型两个方面。

哲学角度

概念模型

“如果把某一领域的研究前沿定义为一个研究领域的发展状况,那么研究前沿的引文就形成了相应的知识基础。”在CiteSpace中研究前沿和知识基础被定义如下:

在此基础上,理论和技术的发展为CiteSpace提供了基础:

主界面展示

主界面

本文章使用的为5.1.R8 SE版本,截至到2018年3月26日的最新版本为5.2.R2,版本选择主要依据电脑版本和所需功能确定,本文只涉及citespace的最基本功能,因此选择了在本机电脑上运行最稳定的版本。

整个界面本文认为可以分为4个主要的部分,具体如下。

  1. 菜单栏

  2. 工程区

  3. 运行进度区

  4. 功能选择区

分区

一、菜单栏

菜单栏

二、工程区

该区域主要用于新建工程,点击new即可以进入新工程的设置界面,具体如下:

工程区.png

三、运行进度区

展示citespace在运行过程中的数据操作,实例演示具体如下:

运行进度

四、功能选择区

可以分析哪些数据?

Citespace目前支持多种数据库导出的文献题录及参考文献数据,具体归纳如下:


数据库及格式要求

当前研究中研究英文文献主要采用web of science数据库,中文数据主要采用CNKI和CSSCI数据库。研究者可以根据自身的需求选择数据来源,并注意其所要求的格式和文件名。由于本文主要研究citespace的使用,因此对于数据库的数据获取不做详细说明,有需要的读者可以自行查找或关注本人更新。

需要注意的是:

数据处理窗口展示

数据处理窗口

数据处理窗口即展示了上节提到的Citespace支持的数据库类型。在数据处理窗口,软件可以完成以下功能:

  1. 数据格式转换(最为常用)
  2. 数据获取:获取ADS、arXiv数据,属于citespace内置功能
  3. 数据处理(较为常用):针对WoS数据,可以进行文件合并、文献去重、分隔符格式转换等。具体内容如下图所示:
数据处理
  1. 整理数据(较少使用):使用本功能要求会使用基本的SQL语句,具体界面如下。
整理数据

基本操作流程

使用citespace的基本操作流程如框图所示,涉及到了数据采集、数据处理、导入软件、功能选择、可视化生成图谱和标签提取、图谱解读几个重要步骤。


基本操作流程

下面以文献共被引图谱分析来展示使用CiteSpace的方法:

1. 前期工作

2. 生成图谱

在主面板上点击“GO”开始进程。Citespace读取terrorism中的数据文件,在左侧的窗口中报告进度。

完成进度后弹出提示框,有三个选项可选Visualize, Save As GraphML, or Cancel。

点击Visualize,查看生成的图谱,一开始是黑色背景上的移动,移动结束后,背景变为白色。


生成图谱1
生成图谱2

3. 默认图谱的信息含义

节点代表分析的对象,出现频次(或被引频次)越多,节点就越大。节点内圈中的颜色及薄厚度表示不同时间段出现频次。节点之间的连线者表示共现(或共引)关系,其粗细者表示共现(或共引)强度。颜色则对应节点第一次共现(或共引)的时间。颜色从蓝色的冷色调到红色暖色调的变化表示时间从早期到近期的变化。滑动右上角工具条,可以放大和缩小图谱

4. 生成聚类图谱

点击

进行自动聚类过程。

依据谱聚类(基于图论的一种算法)对共引网络这种基于连接关系而不是节点属性的聚类具有天然的优势。可以对任意形状的样本空间进行聚类,且收敛于全局最优解。

网络签名位于显示的左上角。模块化Q和平均轮廓分数是关于网路整体结构的两个重要的计量指标。


聚类图谱

6. 聚类信息的查看

cluster→summarization of clusters

聚类信息包括:

Cluster size; silhouette mean(year); top terms(tf*idf); top terms(log-likelihood ratio, p-level); terms(mutual information)


聚类信息查看1
聚类信息查看2

7. 生成聚类标签

为了表征识别聚类的性质。从特定聚类的标题、关键词、摘要中抽取名词短语。

点击 image.png
任意,从文献的标题、关键词、摘要中抽取名词短语,作为聚类标签。
文献共被引聚类图谱

至此最基本的文献共被引图谱生成。

我该选什么图?

通过观察功能选择模块的Node Type选项面板,可以根据节点的类型将其提供的功能总结如下:


节点及对应的图谱类型

不同的图谱所针对的研究对象:

不同图谱研究的问题不同,内涵也不相同:

图谱的具体含义:

针对施引文献的:

  1. 作者共现图谱

    根据施引文献中作者合作的情况绘制,两个作者出现在同一篇文章中即视为一次合作,主要依据作者共现频次矩阵。

  2. 机构共现图谱

    根据施引文献中机构合作的情况绘制,两个作者机构出现在同一篇文章中即视为一次合作,主要依据机构共现频次矩阵。

  3. 国家共现图谱

    根据施引文献中国家合作的情况绘制,两个作者国家出现在同一篇文章中即视为一次合作,主要依据国家共现频次矩阵。

  4. 特征词共现图谱

    从标题、摘要、作者关键词、附加关键词等来源提取特征词,根据施引文献中特征词共现的情况绘制,两个特征词出现在同一篇文献中即视为一次合作,主要依据特征词共现频次矩阵。

  5. 关键词共现图谱

    根据施引文献中关键词共现的情况绘制,两个关键词出现在同一篇文献中即视为一次合作,主要依据关键词共现频次矩阵。

  6. 相似度图谱

    计算参考文献重叠来源的相似度(新功能,较少研究论文)

  7. WOS学科共现图谱

    根据WoS数据中提供的文献所属学科,一篇文章同时属于两个WoS学科时则视为一次学科共现,主要依据学科共现频次矩阵。

针对被引文献的:

  1. 文献共被引图谱

    根据被引文献同时被施引文献引用的情况绘制,两篇文献同时被一篇文献引用即视为一次共被引,主要依据文献共被引频次矩阵。

  2. 作者共被引图谱

    根据被引文献作者同时被施引文献引用的情况绘制,两位作者的两篇文献同时被一篇文献引用即视为一次共被引,主要依据作者共被引频次矩阵。

  3. 期刊共被引图谱

    根据被引文献出版期刊同时被施引文献引用的情况绘制,两本期刊的两篇文献同时被一篇文献引用即视为一次共被引,主要依据期刊共被引频次矩阵。

使用哪种图能展现哪种结果?

此部分仅介绍研究中常使用的几种图谱,对于WOS学科共现、相似度图谱等不做介绍。

我的图需要剪枝吗?

citespace的主面板的pruning选项,是针对生成图谱进行剪枝算法。那么剪枝算法是哪些?我的图到底要不要剪枝呢?

citespace提供了两种剪枝算法:

citespace提供了两种剪枝策略:

剪枝实际上是对形成的网络进行修剪,去除不重要的节点和连线,使得网络中重要的节点和连线更加清晰。便于对图谱进行解读。一般情况下,我们首先点击go生成一次图谱,如果生成的图谱符合需求则不需要进行剪枝。而当生成的图谱节点和连线过多,图谱的可读性极差时,此时才选择进行图谱剪枝。

在剪枝算法上,一般没有推荐算法。MST的优点是运算简捷,能很快得到结果,但并非生成唯一解。 Pathfinder的优点是唯一解,但有时会在剪枝过程中丢失相对重要的节点。但两种算法只能选其一,观察已有研究的情况可以发现网络数据大的研究会选择Pathfinder算法,而数量级万以内的一般选择MST算法。

在剪枝策略上,Pruning slice network是对每一时间段的网络进行剪枝,Pruning the merged networks是对整体网络进行剪枝。两种策略可以同时选择,实现在每一个时间段上剪枝之后再对整体网络进行剪枝。剪枝策略的选择上也依据网络的实际情况,若网络复杂程度不高,可仅选择Pruning the merged networks对整体网络进行剪枝,若在此基础上图谱仍很负责,再选择Pruning slice network对每一时间段网络进行剪枝。

聚类标签的提取用哪个来源和算法

citespace在聚类标签的提取上提供了三种标签来源:标题、关键词、摘要;提供了三种标签提取算法LSI/LLR/MI

(一)算法谁更好?

下面用web of science导出的数据进行文献共被引图谱的生成,并使用标题作为来源,分别使用三种算法进行聚类标签的生成。


LSI
LLR
MI

综合来看,笔者建议使用LLR算法进行聚类主题提取,所得出的聚类标签会更加符合实际情况且重复情况较少。但需要注意的是,不论使用哪种算法进行聚类主题提取,均需要再次确认生成的标签和实际文献的情况,有时需要合并聚类。

(二)来源哪个佳?

下面用web of science导出的数据进行文献共被引图谱的生成,并使用LLR作为算法,分别使用三种来源进行聚类标签的生成。


标题 关键词 摘要

由实例可以看出,三种聚类主题来源均有各自的特点但差距并不是很大,研究中可以根据实际的需要来确定来源。仅以本例来看,用摘要提取的聚类标签在进行合并之后更符合研究需要——体现网络对竞争情报的影响。

让你的图更美——调整图谱

软件自动生成的图总是很丑,相信用过citespace的人都有所体会。虽然这样的图依然有价值,但缺乏了美感,在图谱解读时也会有部分障碍。因此本节主要是对图谱调整的一些方法进行说明。

在图谱生成界面中的display选项中基本包含了进行图谱调整的所有内容。


图谱调整

下面依次解释常用选项的用法:

一些CiteSpace使用过程中的小问题(持续更新)

  1. 在关键词可视化视图生成过程中,左边会出现相应的按词频排列的关键词排序,一些关键词会出现两次,这该怎么解释呐?而有些关键词只是单复数的区别,如library和libraries。

    在图中右键将要保留的词选为Alias Primary,再将另一词选为Alias secondary. 重新GO!一下, 会将二者合并。

  2. 图谱生成界面,节点的中心度均显示为0.

    在菜单栏中选择Metrics-compute centrality,即可计算出各个节点的中心度。

本文由于笔者水平的限制,可能会出现一些错漏,欢迎指出并交流学习。

参考文献

陈悦.引文空间分析原理与应用[M].科学出版社,2014.

李杰,陈超美. citespace:科技文本挖掘及可视化[M].首都经济贸易大学出版社,2016.

陈超美教授又一力作,你要的 CiteSpace 应用的完美范文来了(http://blog.sciencenet.cn/blog-43950-1043931.html

citespace学习摘要及心得(http://blog.sciencenet.cn/blog-3243177-1007971.html

Chaomei Chen. Science Mapping: A Systematic Review of the Literature[J]. Journal of Data and Information Science, 2017, 2(2): 1-40.

Chaomei Chen, Zhigang Hu, Shengbo Liu & Hung Tseng. Emerging trends in regenerative medicine: A scientometric analysis in CiteSpace [J]. Expert Opinionon Biological Therapy, 2012, 12(5): 593-608.

上一篇下一篇

猜你喜欢

热点阅读