2015年文献信息分析工具比较,文献分析工具比较
文献信息分析工具的比较2015
笔记内容节选于 20151115 李艳; 张悦; 曾可; 张士靖 发表的期刊《文献信息分析工具的比较》
1选取具有代表性的13种文献信息分析工具,
2从支持的数据格式、数据预处理、构建的关系矩阵、标准化处理、分析方法、结果的可视化等方面进行了比较,
3总结了每个工具的优势与不足,并为用户选择合适的分析工具提出了建议。
工具基本信息
工具 |
开发机构 |
开发年份 |
版本 |
是否免费 |
HistCite |
美国Thomson Reuters |
2001 |
12.3.17 |
否(有试用版) |
CiteSpace |
美国 Drexel 大学 |
2004 |
3.8R13 |
是 |
VOSviewer |
荷兰 Leiden University |
2010 |
1.6.0 |
是 |
SciMAT |
西班牙格纳纳达大学 |
2011 |
V1.1.03 |
是 |
SCI2 |
美国印第安纳大学KatyBornoe |
2009 |
V1.1 |
是 |
Bibexcel |
瑞典科学家Persson |
2009 |
2014.03.25 |
是 |
Bicomb |
中国医科大学 |
2009 |
2.0 |
是 |
SATI |
浙江大学大学信息管理系 |
2011 |
3.2 |
是 |
Pajek |
A.Mrava和V.Batagelj |
1996 |
3.04 |
是 |
Ucinet |
Lin Freeman |
- |
6.0 |
否(有试用版) |
GOPubMed |
德国Transinsight公司和德累斯顿大学 |
2005 |
- |
是 |
本地PubMed |
中国济南泉方 |
2007 |
- |
否 |
PubMedplus |
北京唯博赛科技有限公司 |
2012 |
- |
否(有试用版) |
支持的数据格式
工具 |
工具类型 |
数据量 |
支持的数据库及数据类型 |
HistCite |
文献计量 |
支持大型数据 |
WOS |
CiteSpace |
文献计量 |
10000条以内 |
WOS,PubMed,Derwnet,Scopus,GoogleScholar,ArXiv,ADS,NSF,CSSCI,CNKI |
VOSviewer |
文献计量 |
支持大型数据 |
网络格式:支持Pajek得net,GML;书目数据:WOS,Scopus,PubMed;语料库:WOS,Scopus |
SciMAT |
文献计量 |
10000条以内 |
WOS(txt),Scopus(RIS),CSV格式 |
SCI2 |
文献计量 |
10000条以内 |
网络格式: GraphMl(xml,graphml), XGMML(xml),Pajek(net),NWB(nwb); 书目数据: WOS(isi), Bibtex(bibi), Endnote(enw), Scopus csv(scopus),NSF csv(nsf); 其他: Pajek Matrix(mat),TreeML(xml),Edgelist(edge),CSV(csv) |
Bibexcel |
文献计量 |
支持大型数据 |
WOS(txt),Scopus(ris),转化后的CSSCI |
Bicomb |
文献计量 |
支持大型数据 |
WOS(txt),PubMed(xml),万方(xml), CNKI(xml) , 自定义数据格式 |
SATI |
文献计量 |
支持大型数据 |
WOS(html),CNKI(Endnote),万方(NoteExpree) ,维普(Notefirst) |
Pajek |
社会网络 |
支持大型数据 |
文本数据,支持各种软件导出(net,vec,clu,per,cls,hie等),Ucinet的DL格式 |
Ucinet |
社会网络 |
支持大型数据 |
原始数据,Excel,数据语言数据 |
GOPubMed |
文献计量 |
100000 |
无语导入数据 |
本地PubMed |
文献计量 |
支持大型数据 |
无语导入数据 |
PubMedplus |
文献计量 |
支持大型数据 |
无语导入数据 |
数据预处理
工具 |
数据预处理方式 |
HistCite |
数据精简 |
CiteSpace |
时间切片、数据和网络精简 |
VOSviewer |
数据精简、网络精简 |
SciMAT |
去重、时间切片、数据和网络精简 |
SCI2 |
去重、时间切片、数据和网络精简 |
Bibexcel |
数据和网络精简 |
Bicomb |
数据精简 |
SATI |
中文分词 |
Pajek |
无 |
Ucinet |
无 |
GOPubMed |
基于语义分类工具GO&MeSH |
本地PubMed |
基于语义分类工具GO&MeSH |
PubMedplus |
基于语义分类工具GO&MeSH,单位和作者异名的规范和汉化 |
显示Sci MAT和SCI2 包含4 种数据预处理模块,优势明显; 大部分工具支持数据精简和网络精简; Pajek和Ucinet无数据预处理功能。GOPub Med,Pub Medplus和本地Pub Med基于语义分类工具GO&Me SH引入本体概念,支持语义级的交换,可消除或减少由于同义词或相近词概念及术语的混乱,在语义数据处理方面优势明显。此外,Pub Medplus还增加了单位和作者异名的规范处理功能。
实现的关系矩阵
工具 |
书目耦合 |
合作 |
共引 |
共词 |
直接引文 |
其他 |
||||||
作者 |
期刊 |
文献 |
作者 |
国家 |
机构 |
作者 |
文献 |
期刊 |
||||
HistCite |
|
|
|
|
|
|
|
|
|
|
* |
|
CiteSpace |
|
|
* |
* |
* |
* |
* |
* |
* |
* |
|
* |
VOSviewer |
* |
* |
* |
* |
|
* |
* |
* |
* |
* |
|
|
SciMAT |
* |
* |
* |
* |
* |
* |
* |
* |
* |
* |
|
* |
SCI2 |
* |
* |
* |
* |
|
|
* |
* |
* |
|
* |
* |
Bibexcel |
|
|
* |
* |
* |
* |
* |
* |
* |
* |
|
* |
Bicomb |
|
|
|
* |
|
* |
* |
* |
|
|
|
|
SATI |
|
|
|
* |
* |
* |
|
* |
|
* |
|
* |
Pajek |
|
|
|
|
|
|
|
|
|
* |
|
|
Ucinet |
|
|
|
|
|
|
|
|
|
|
|
|
GOPubMed |
|
|
|
* |
|
|
|
|
|
|
|
|
本地PubMed |
|
|
|
|
|
|
|
|
|
* |
|
|
PubMedplus |
|
|
|
* |
* |
* |
|
|
|
* |
|
|
关系矩阵中最常见的分析单元是期刊、文献、参考文献、作者、主题词或关键词。分析单元之间的关系可分为三类。第一类是直接引文关系,即直接从信息的发送者到信息的接受者。第二类是将分析单元之间的关系用做共现数据,即通过计算两个分析单元在文献中同时出现的次数来衡量两个分析单元之间的相似性,包括合作、耦合、共引和共词。合作用来分析研究领域的社会结构,共词则是使用文献中最重要的主题词或者关键词研究一个领域的概念结构[27],共引和书目耦合用来分析研究领域的知识结构。区别在于,书目耦合是固定和永久的引文关系,共引关系是随时间而变的[28]。第三类是一些不常见的或复杂的网络。表4 列举了各种分析工具可以创建的关系矩阵。可以看出,没有一个工具可以创建全部关系矩阵,大部分工具都支持共现矩阵的创建,其中Citespace,Vosviewer,Sci MAT,SCI2,Bibexcel等可以构建多数关系矩阵,但只有Histcite和SCI2支持直接引文网络。相对于GOPub Med和本地Pub Med仅关注于一种网络,Pub Medplus可以构建4种网络,Pajek和Ucinet则不支持文献计量学网络的创建。此外,SATI可以创建包含词条共现矩阵、频率分析矩阵、文档词条矩阵等在内的8 种矩阵。
标准化处理
构建了分析单元的关系矩阵之后,需通过标准化处理对数据间的相似性进行测量来获得数据之间的隐含关系,简而言之就是对数据进行规范化
工具 |
标准化方法 |
HistCite |
无 |
CiteSpace |
Salton's余弦、Jaccard'指数 |
VOSviewer |
关联强度 |
SciMAT |
关联强度、Equivalence指数、Inclusion指数、Jaccard指数、Salton余弦 |
SCI2 |
用户自定义 |
Bibexcel |
Salton余弦、Jaccard指数、Vladutz和Cook标准化 |
Bicomb |
无 |
SATI |
Equivalence指数 |
Pajek |
无 |
Ucinet |
Jaccard指数,cohen’s kappa, identity系数, correlation, hamming-sim |
GOPubMed |
潜在语义分析 |
本地PubMed |
潜在语义分析 |
PubMedplus |
潜在语义分析 |
常用标准化处理方法有Salton's余弦、Jaccard'指数、Equivalence指数、关联强度等[2]。如表5 所示,大部分分析工具都使用了上述方法中的一种或多种; GOPub Med,Pub Medplus,本地Pub Med则因使用GO&Me SH工具,使用潜在语义分析将语料库与本体进行连接; Pajek和Histcite则无规范化处理的功能。
分析方法
分析工具所用的分析方法很多,如网络分析、地理空间分析、时间序列、性能分析、突变检测等。网络分析是测量某一节点在整个网络中的中心度,或一个聚类在图谱中的中心度; 地理空间分析则是回答事件在哪里发生及其对周围区域的影响; 时间序列,或纵向分析旨在分析不同时间段研究领域的演变,主要通过对趋势、离群、活动、模式和季节性等的观测,是知识图谱分析中最常见的一种分析方法; 性能分析使用基于引文的文献计量学指标和方法来量化图谱和网络中不同元素的重要性、影响和质量; 突变检测是时间序列分析的一种,旨在发现有限的持续时间内变量的剧烈变化[1]。表6 显示,最常见的方法是网络分析、时间序列分析和突变检测。其中,Citespace,Sci MAT和SCI2 的分析方法最多; Ucinet采用多种网络分析指标。本地Pub Med和Pub Med-plus等都使用了期刊影响因子、H指数、被引频次等指标; 此外,Pub Medplus使用了替代计量学的评价指标Altmetric得分,本地Pub Med增加了威望指数。
工具 |
文献计量学指标 |
分析方法 |
HistCite |
无 |
聚类分析,时间序列分析 |
CiteSpace |
频次/中心性,初现年,Burst值,∑值,PageRank,半衰期 |
突变检测,地理空间分析,网络分析,时间序列分析 |
VOSviewer |
无 |
网络分析,主题分析 |
SciMAT |
Callon’s密度和中心度,H-指数,g指数,hg-index,q2指数,平均引文数,最大引文数,最小引文数 |
基本数据统计分析,网络分析,性能分析,时间序列分 |
SCI2 |
无 |
突变检测,地理空间分析,网络分析,时间序列分析,主题分析,基本数据统计分析 |
Bibexcel |
无 |
基本数据统计分析,网络分析 |
Bicomb |
频次,百分比,累计百分比 |
聚类分析 |
SATI |
批次 |
聚类分析 |
Pajek |
中心度,立即指数,密度 |
网络分析、时间序列分析 |
Ucinet |
中心度,二方关系凝聚力测度,位置分析算法,派系分析,随机二方关系模型 |
网络分析 |
GOPubMed |
无 |
聚类分析、地理空间分析、分类导航分析吗、主题分析 |
本地PubMed |
影响因子、威望指数、H指数、Q分区、被引次数 |
聚类分析、主题分析、知识发现 |
PubMedplus |
影响因子,H指数,被引次数,Altmetric得分 |
聚类分析、主题分析、地理空间分析 |
可视化图谱
可视化图谱用来帮助用户分析和理解结果。
工具 |
可视化图谱 |
HistCite |
引文编年图 |
CiteSpace |
自动聚类标签视图、时间线视图、时区视图、鱼眼视图 |
VOSviewer |
网络可视化视图、条目密度视图、聚类密度视图 |
SciMAT |
条目叠加图、演变地图、战略图、聚类网络 |
SCI2 |
二分网络图、水平条形图、等值线图、比例符号地图、此外可通GUESS、Gephi、Cytoscape等插件进行可视化 |
Bibexcel |
导入Pajek、Ucinet、Vosviewer等进行可视化 |
Bicomb |
导入SPSS、Gclute进行聚类分析 |
SATI |
内嵌Netdraw可视化工具 |
Pajek |
2D、3D或者动态的社群图 |
Ucinet |
散点图、树状图、树形图,以及Netdraw内置的画图工具 |
GOPubMed |
地图、聚类图、趋势图、条形统计图 |
本地PubMed |
指纹共词图、趋势图、聚类网络 |
PubMedplus |
趋势图、地图 |
在时间序列分析的可视化中,Histcite使用编年史图,Citespace使用时间线视图,Sci MAT使用演变地图和重叠条目图,GOPub Med,Pub Medplus和本地Pub Med则使用的是趋势图。 Citespace,Vosviewer,SCI2,Pajek,Ucinet,GOPub Med,本地Pub Med等可实现多种类型的可视化图谱。其中SCI2 是一个模块化的工具集,除自身所具备的可视化技术,还内置多种可视化软件; SATI,Bibexcel,Bicomb等不具备可视化功能,需要借助其他可视化软件。
结论
通过对13种分析工具的比较,可以看出每一个工具都有着不同的特点,没有一个工具能够囊括所有的功能。比较结果显示,Citespace,SCI2,SciMAT功能较完整,其他工具也有各自的优势。对13种分析工具特点归纳如下。
Histcite主要用于对书目数据进行基本的统计分析,以时间序列编制引文编年史图展示领域的演变路径,但无法对数据进行标准化处理,分析方法较少。
Citespace支持中文数据库在内的多个数据库,可以构建常见的关系网络,采用多种文献计量学分析方法定量分析可视化结果,从多个角度展示某领域的演变历程,但其无法实现数据的去重。
Vosviewer的优势在于可视化,能从多个视图对结果进行展示,可构建多种矩阵,并支持文本挖掘,但其无法实现数据的去重,不能通过时间演变展示一个领域的演进路径。
SciMAT具有强大的预处理能力,能构建多种文献计量学网络,并以文献计量学指标对结果的影响力进行定量分析,还可通过配置向导的方式引导用户进行分析。
SCI2是一个模块化工具集,集合了多个工具的功能,支持多种格式的输入,分析方法多样,在可视化方面拥有丰富的插件,但在使用上有一定的难度。
Bibexcel专门用来构建文献计量学关系矩阵,具有高度的灵活性,需借助其他的可视化软件来进行可视化分析。
Bicomb支持中文数据库,能进行基本的统计分析,并生成多种共现矩阵和词篇矩阵,但数据处理和可视化方面存在不足。
SATI支持中文数据库,实现基本的统计分析,能构建多类矩阵。
Pajek支持大型的网络数据,不仅可以构建一些普通的网络图,还支持特殊网络的构建,具有强大的图形处理能力,但不支持文献计量关系矩阵的创建,数据预处理能力差。
Ucinet可导入矩阵,也可自行创建,具有网络分析功能,内置可视化软件,但不支持文献计量学矩阵的创建。
GOPub Med是最早使用基于本体的语义分类工具,支持分类导航分析,使用户能快速找到最相关的文献,但创建的关系矩阵单一。
本地Pub Med使用多个计量学指标对文献进行评价,可以从多个角度对分析结果进行可视化。
Pub Medplus基于Pub Med,在数据处理方面解决了作者重名的问题,其最大的优势在于其强大的聚类分析功能。
对用户选择分析工具的建议
由于文献信息分析工具种类众多,在开展分析时,应了解不同工具的特点,再根据不同的分析目的、特性和拟解决的问题,选择恰当的分析工具。一是要根据数据源选择合适的工具。若数据源为PubMed,可以选择GOPubMed,PubMedplus或者本地PubMed及支持PubMed数据库的工具;对于用户自行创建的矩阵数据,选择Pajek或Ucinet。二是Citespace,SCI2,SciMAT,Vosviewer,SATI,Bibexcel,Bicomb等工具均可用于共现分析。一般来讲,用户可以根据数据源选择上述任何一个工具进行分析。不过共词分析和合作者分析需要对源数据进行去重,所以应选择SciMAT或SCI2。Bibexcel,SATI和Bicomb等工具主要用于构建各类关系矩阵,但需借助其他工具进行可视化。三是不同的工具分析方法不同,用户可根据需求进行选择,如时间序列分析,需支持时间序列分析的工具,选择Histcite,Citespace,SciMAT,SCI2,Pajek等工具;对于直接引文网络的构建,选择Histcite和SCI2等工具。四是Citespace,SciMAT,Ucinet,本地PubMed和PubeMedplus等具有多种文献计量学指标,可以对产生的图谱进行定量分析。五是对于中文数据,Bicomb和SATI支持中国知网和万方数据库,Citespace支持中国知网和CSSCI数据库,Bibexcel支持转化后的CSSCI数据库。六是可考虑多个工具联合使用,因为没有一个软件可以实现全部的功能。
对文献信息分析工具研发工作的建议
文献信息分析工具是文献计量学、社会计量学、统计学、图形学、信息科学和计算机科学技术相结合的产物。国内对文献信息分析工具的研究起步晚,专业人员的投入不足,应加强多个领域的合作研究[29]。文献信息分析工具针对书目数据进行分析,数据库导出的数据越丰富,文献信息分析工具的价值越高。国内的大型数据库不支持引文数据的导出,故无法进行引文分析,应进一步加强与国内全文数据库的合作,促进双赢。大部分文献信息分析工具通过图谱实现对某一学科宏观和微观、定性和定量的把握,图谱的视觉效果对于结果的解读起着“一图胜千言”的作用。因此,要进一步加强分析工具的图谱展示功能。
结语
文献信息分析工具有着探测前沿热点、预测发展方向的作用。科学研究人员学会选择和使用这些工具,将使他们的科学研究更加高效。
推荐阅读
-
比较分析:第三方实时聊天工具的优劣
-
SoapUI、Jmeter、Postman 三种界面测试工具的比较分析
-
Java 反编译工具的使用和比较分析
-
Java 反编译工具的使用和比较分析(II)
-
2015年文献信息分析工具比较,文献分析工具比较
-
包婷婷 (201550484)作业一 统计软件简介与数据操作-SPSS(Statistical Product and Service Solutions),"统计产品与服务解决方案"软件。最初软件全称为"(SolutionsStatistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为"统计产品与服务解决方案",标志着SPSS的战略方向正在做出重大调整。为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称SPSS,有Windows和Mac OS X等版本。 1984年SPSS总部首先推出了世界上第一个统计分析软件微机版本SPSS/PC+,开创了SPSS微机系列产品的开发方向,极大地扩充了它的应用范围,并使其能很快地应用于自然科学、技术科学、社会科学的各个领域。世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价。 R统计软件介绍 R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。 与其说R是一种统计软件,还不如说R是一种数学计算的环境,因为R并不是仅仅提供若干统计程序、使用者只需指定数据库和若干参数便可进行一个统计分析。R的思想是:它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者能灵活机动的进行数据分析,甚至创造出符合需要的新的统计计算方法。 该语言的语法表面上类似 C,但在语义上是函数设计语言(functional programming language)的变种并且和Lisp 以及 APL有很强的兼容性。特别的是,它允许在"语言上计算"(computing on the language)。这使得它可以把表达式作为函数的输入参数,而这种做法对统计模拟和绘图非常有用。 R是一个免费的*软件,它有UNIX、LINUX、MacOS和WINDOWS版本,都是可以免费下载和使用的。在R主页那儿可以下载到R的安装程序、各种外挂程序和文档。在R的安装程序中只包含了8个基础模块,其他外在模块可以通过CRAN获得。 二、R语言 R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个*、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。 R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX,Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R还有以下特点: 1.R是*软件。这意味着它是完全免费,开放源代码的。可以在它的网站及其镜像中下载任何有关的安装程序、源代码、程序包及其源代码、文档资料。标准的安装文件身自身就带有许多模块和内嵌统计函数,安装好后可以直接实现许多常用的统计功能。[2] 2.R是一种可编程的语言。作为一个开放的统计编程环境,语法通俗易懂,很容易学会和掌握语言的语法。而且学会之后,我们可以编制自己的函数来扩展现有的语言。这也就是为什么它的更新速度比一般统计软件,如,SPSS,SAS等快得多。大多数最新的统计方法和技术都可以在R中直接得到。[2] 3. 所有R的函数和数据集是保存在程序包里面的。只有当一个包被载入时,它的内容才可以被访问。一些常用、基本的程序包已经被收入了标准安装文件中,随着新的统计分析方法的出现,标准安装文件中所包含的程序包也随着版本的更新而不断变化。在另外版安装文件中,已经包含的程序包有:base一R的基础模块、mle一极大似然估计模块、ts一时间序列分析模块、mva一多元统计分析模块、survival一生存分析模块等等.[2] 4.R具有很强的互动性。除了图形输出是在另外的窗口处,它的输入输出窗口都是在同一个窗口进行的,输入语法中如果出现错误会马上在窗口口中得到提示,对以前输入过的命令有记忆功能,可以随时再现、编辑修改以满足用户的需要。输出的图形可以直接保存为JPG,BMP,PNG等图片格式,还可以直接保存为PDF文件。另外,和其他编程语言和数据库之间有很好的接口。[2] 5.如果加入R的帮助邮件列表一,每天都可能会收到几十份关于R的邮件资讯。可以和全球一流的统计计算方面的专家讨论各种问题,可以说是全世界最大、最前沿的统计学家思维的聚集地.[2] R是基于S语言的一个GNU项目,所以也可以当作S语言的一种实现,通常用S语言编写的代码都可以不作修改的在R环境下运行。 R的语法是来自Scheme。R的使用与S-PLUS有很多类似之处,这两种语言有一定的兼容性。S-PLUS的使用手册,只要稍加修改就可作为R的使用手册。所以有人说:R,是S-PLUS的一个“克隆”。 但是请不要忘了:R是免费的(R is free)。R语言源代码托管在github,具体地址可以看参考资料。[3] 。 R语言的下载可以通过CRAN的镜像来查找。 R语言有域名为.cn的下载地址,有六个,其中两个由Datagurn,由 中国科学技术大学提供的。R语言Windows版,其中由两个下载地点是Datagurn和 USTC提供的。 三、stata Stata 是一套提供其使用者数据分析、数据管理以及绘制专业图表的完整及整合性统计软件。它提供许许多多功能,包含线性混合模型、均衡重复反复及多项式普罗比模式。用Stata绘制的统计图形相当精美。 新版本的STATA采用最具亲和力的窗口接口,使用者自行建立程序时,软件能提供具有直接命令式的语法。Stata提供完整的使用手册,包含统计样本建立、解释、模型与语法、文献等超过一万余页的出版品。 除此之外,Stata软件可以透过网络实时更新每天的最新功能,更可以得知世界各地的使用者对于STATA公司提出的问题与解决之道。使用者也可以透过Stata. Journal获得许许多多的相关讯息以及书籍介绍等。另外一个获取庞大资源的管道就是Statalist,它是一个独立的listserver,每月交替提供使用者超过1000个讯息以及50个程序。 四、PYTHON
-
PMP 工具和技术集中的数据分析技术汇总与比较
-
Wireshark、Sniffer 和 Omnipeek 网络分析工具的比较
-
RNA-seq 分析软件" RNA-seq 比较工具 STAR 研究说明
-
Wireshark、Sniffer 和 Omnipeek 三种网络分析工具的比较-3.WildPacketsOmniPeek 4.