Mac中最好用的全文检索软件FoxTrot Profession

2020-10-01  本文已影响0人  lushunneng

数字人文时代的个人数据库之六:数据库的索引与检索工具FoxTrot Pro

原创 艺术史图书馆 [艺术史图书馆](javascript:void(0);) 2019-01-18

收录于话题

数字人文时代的个人数据库

11个

艺术史图书馆可分为实体与虚拟,实体的图书馆又分为公共图书馆和私人的图书室,实际上虚拟的图书馆也可以分为公共的网络数据库和个人电脑上的私人数据库。公共数据库的介绍将专设数字人文和艺术史栏目,大致从1979年的第一届Convegno nazionale sui lessici tecnici delle arti e dei mestieri 会议开始,侧重于跟艺术史相关的数字人文方面的发展。而数字人文时代的个人数据库这一栏目主要侧重于个人数据库建立过程中所需要的工具、方法和理念。鉴于我个人所使用的方法仅仅是比较适合我自己,有些部分可能并不通用,或者有更好的办法,因此这组文章并不按顺序来介绍,而是从重要性和独特性出发,直接从第六部分开始,即Mac上的检索软件FoxTrot Pro

image

FoxTrot Pro 官网 http://www.ctmdev.com/index.html

image

1979年在意大利召开的首届利用电脑技术进行术语研究的会议论文集

一、****为什么要用Foxtrot Pro 来索引和检索

建立一个个人的艺术史数据库,首先需要各种数据文件,然后按照研究进行分类,再根据语种进行OCR, OCR之后就需要检索数据了。面对几十成百甚至上千的数据时,要如何检索才高效,尤其是很多时候要在确定的研究范围内进行检索关键词,而呈现的文件又是按照一定的规律的,比如按照文献的年份,按照出现的频率等来排序。

举个更为实际的例子,比如我在做瓦萨里的术语研究时,需要知道某个术语在瓦萨里的文本里出现在哪里,而又需要大致了解这个词在文艺复兴时期的文献里的出现频率和出现时的搭配词,尤其是呈现时是按文献的年代排序,这样就能知道什么时候是首次出现,在哪个文本里出现频率较高。

image

正在编纂的《瓦萨里艺术术语词典》条目

有些人可能会有疑虑,比如像某个词的首见,一方面第一次出现在某个文本中,未必就是这个词的首见;另一方面这样的词源研究难道不是已经被大致研究清楚了吗,尤其是存在大量的词源词典(意大利语的词源词典将另文介绍)。第一方面的问题比较复杂,可能也没有必要。至于词源词典,由于这些词源词典并非是针对艺术领域的,无法专门关照到艺术术语,另外,在术语研究中,切记不能因袭以往的词典(比如著名的艺术术语词典Dizionario di Arte,其中Grassi是基于瓦萨里文本(他是其中一个重要版本的编辑者),其词条大致可靠,而 Mario Pepe的词条则大多因袭以往词典的词条,相对来说质量要差得多),对一个概约的词条再进行摘选与概括,这样的结果会更为干瘪。因此,这些术语一定要重新放入文艺复兴原始文献的范畴内进行考察,只有在这些原始文献的基础上,才能显示出这些术语使用的鲜活性

image.gif

Luigi Grassi的《艺术术语词典》旧版

image.gif

目前相对较好用的意大利词源词典

术语在瓦萨里的文本里的出现,已经由Paola Barocchi带领一群年轻学生工作完成,可以在网站上查询,见[http://vasariscrittore.memofonte.it/home]其中就包括了该术语的单复数、变位词、古今异形等。但是在文艺复兴时期的艺术文献部分,只有一部分可以在 Trattati d'arte del Cinquecento这个数据库中检索。其余的文献,都需要研究者根据自己的需要进行数据收集和检索,而且检索后呈现的结果最好是按照时间排序。这个时候,最好的检索工具是FoxTrot Pro。

image

Vasariscrittore的数据库

image

Trattati d'arte del Cinquecento数据库

书籍的物质性往往在数据化过程中被抹除,在数据库中只剩下有用的数据。包括上面提到的两个Paola Barocchi所领导完成的数据库,其来源正是她出版的专著,但在转变成数据的过程中,虽然文本是得到检验的,但其中的注解却只能被舍弃,更不用说本来书籍的排版甚至书页的状态。当然这其中很大的原因可能是出于版权上的考虑。这也是目前面向公众的数据库的束缚所在,往往要面对非常复杂的版权问题。个人的数据库由于只是自己使用,其所受到的限制就相对较少。

image

Barocchi编辑的16世纪艺术文献集第三卷

image
 Barocchi的注释占到一半篇幅

数据检索目前为止只能成为研究的一种手段,而不是研究的最终结果,对于我来说,这种方式更像是发现问题的一个过程,在面对今天积极的学术交流环境中,利用个人建立的数据库和个人的实体图书资料室去衡量频繁的学术交流中闪现的观点和想法。举个简单的例子,上次Robert Klein的会议就有人提出来Klein是否阅读过Baxandall,因为两人都关注艺术文献,做语文学方面的工作。很可惜这个问题因为短时间内无法得到验证而滑了过去,后来我检索自己的数据库,发现Klein编的DE SCULPTURA 确实引用了Baxandall,至于是Klein引用还是后来Chastel所加,则要做进一步分析,但这两种情况都是挺有意思的。

image.gif

De Sculptura中对Baxandall的引用

另外,个人数据库的数据绝不是沉睡在底层的,这些文件应该被不断地检索、不断地阅读、不断地笔记,从而扩展这些数据的个人属性。西方学术研究相互之间藩蓠很深,不要说艺术史与历史之间,甚至于一个研究米开朗基罗的与一个研究乔托的,相互之间也很难了解对方的研究。这种过度专业化导致学术研究成了干瘪的抵达事物的手段,而缺乏有血有肉的新鲜性。强调对各个阶段的原始文献的阅读,不是专业研究时的阅读,而是闲暇时的、长期的阅读,这实际上也是中国的传统史学研究一直以来所秉持的。

在此,我还想引用汪丁丁的判断,我基本认同他的判断,只是就艺术史研究来说,重要的在于对原始文献的休闲和随时随地的阅读(原始文献的问题,将另文展开,尤其关于各个时代有哪些原始文献,哪些容易读,哪些相对较硬,读的方法是不一样的,至于观看原作的问题,是另外一个层次,在此不细说)。

“创造性思维同时需要两项前提:1)焦虑感不可太高,2)压力不可消失。 人这种生物体,或许因为神经元传导速度远远低于电子线路,我早就写过,如果不能持续思考那就什么思想也得不到,于是普遍忙碌的时代总是成为思想史记录里思想最贫困的时代。感谢目前的政治压力,让我从忙碌时代稍许退出,有了足够长的思考时间。思考不是持续想着所思的题目,而是,呵呵,叔本华描写过(我几十年前引述过),如同在日本花园里散步,曲径通幽,徘徊往复,让思绪像科隆郊区的公园森林里雨后的蘑菇那样铺开。然后,最近的一个 youtube 视频的标题是,为什么我们最富于原创的思想常常在洗澡时冒出来?”

二、用FoxTrot Pro 来索引和检索个人的艺术史数据库

FoxTrot Pro并非是一个常用的软件,网上的介绍很少,而且价格相对昂贵。具体的信息可见其官网[http://www.ctmdev.com/foxtrot/professional_search/index.html] 。简单来说,这是一家瑞士的软件公司(CTM Development )下面的一款软件,** 最早于2003年用来检索邮件信息,后来才逐渐发展为独立的检索数据的软件。** 这个软件的优势在于可以检索几乎所有的文件,比如PDF, Word, Excel, PowerPoint, HTML, Apple Mail等等,检索的时候可以检索一个文件的8个方面,包括文件内容、文件名、元数据、关键词等单项及其组合,而且最终可以根据相应条件排序。相比于苹果系统中无处不在的spotlight,这个软件最重要的是可以对多个文件夹进行组合索引并检索。与之同类的软件应该是DEVONthink,更为著名,使用也较广泛,但在我的使用中,FoxTrot Pro更符合我建立个人数据库的需求。

image.gif

检索的范围

image.gif

检索的8个方面

这个软件的逻辑很简单,首先对一个或多个文件夹进行Index,之后就可以检索index的结果。比如像艺术术语这个,我就索引了Silvestrini和Grassi的词典,其实还可以索引Nikolaus Pevsner的意大利语版建筑词典。

image.gif

艺术术语的索引

一般情况下,只需要检索一个文件夹下的内容就可以了,然后具体在检索时勾选不同的index,这样更为方便。比如我想要对比布克哈特和瓦尔堡对瓦萨里的阅读和引用,只要分别勾选这两个数据库就可以了。

image

布克哈特和瓦尔堡对瓦萨里的引用

那么用FoxTrot对哪些文献进行索引和检索呢?一般情况下,进行检索的至少是经过Zotero并进行过OCR的文献。然后再对下面的文件夹进行索引,然后再组合。讲起来比较抽象,主要是利用Zotero的层级(反应在文件夹上就是嵌套),从图中可以看到Terms是最上级,下面是Vasari Terms,再下面是Vasari Opere,再下面是Le Vite Edition,再到下面才是具体的版本,如Karl Frey的。最近我一直在搞Karl Frey的研究,在这里的版本部分,可以看到我对这一版的瓦萨里同时进行了意大利语和德语的OCR,因为Frey做了大量的注释,是用德语写的,价值比较大,另外同时有Supino的著名书评。

image

Terms下面的层级

image

Frey版本所在的层级及
包含的两种语言OCR的文本

这里是 Frey 的瓦萨里版本,但同时我另有一个属于Frey的单独的序列,这里基本包含了Frey 所有的著作和论文,而刚才出现在瓦萨里版本文件夹下的也同时出现在这里。具体如何进行分类、会碰到哪些具体的问题,可以放到Zotero这一部分再细讲。这里想说明的是,FoxTrot Pro所针对的是对不同的层级文件进行检索,且相互之间可以组合。

image.gif

Frey的著作层级

Foxtrot还可以对整个电脑甚至外部移动硬盘进行名称索引,这样的话,找文件不需要连接各个硬盘,只需要先搜索外接硬盘的索引就可以了。

另外,对于展览的展签的拍摄,之后再转成PDF,并经OCR之后,也就可以用来快速检索图像了。

三、如何用FoxTrot Pro 来索引和检索词典

Foxtrot还有一个用处是查词典。比如词源词典,查询DELI,这个词典虽然是有光盘版的,但每次都要放入光盘,非常麻烦,如果用合适的方法将词条存成PDF,就可以放入FoxTrot 进行检索了,更加方便。尤其是意大利的各种软件光盘,刚出的时候还能用,电脑系统一升级,就难得再搞开发了,逐渐就不能适应新系统了。像IOS里的Icommedia、BIZ数据库 ,早已经不支持新系统了,为此我一直留着一个装载IOS 10的手机。

image.gif

DELI词源词典所查得的Figura词条

做词典索引还是有一些技巧的。首先最好不要直接检索整个词典文件,而是要把它拆成一页一页的,这样检索起来更加地快速。当然,如果你是从数据库中一个一个保存成一个词条一个词条文件的,那是最为方便的。之前在《艺术史学的基础》里已经说过网上的几个重要的百科,其实是可以网页存成PDF的,这种事情几年前我就干过很多。当然高手都是爬虫爬的,也有现成封装成软件,能够直接下载相关文件的,在此就不展开了。

image.gif

拆成单页的《现代意大利语词典》,显示的第一条就是所查单词

四、 FoxTrot Pro 的一些使用技巧

image

FoxTrot Pro 的价格表

最值得注意的是这个软件相对来说很昂贵,专业版单个用户接近一千人民币。这篇推文不是广告,我也不推荐大家一上来就买这么贵的软件。事实上下载软件之后(可到官网下载,或者在公众号后台回复Foxtrot Pro),你将有一个月的试用期,哪怕是一个月试用结束后,你还是可以用来检索已经做完索引的文献的,只是无法更新你的索引,也就是说如果你还在不断增加文献,那之后的文献是无法再建立索引了。

由于这个软件的常用性,可以用快捷键快速进入软件,我用的是Spark,用Control+1 进行调用。

image

用Spark 来设置快捷键

接下来的第七部分将介绍Foxtrot Attaché,也就是如何把电脑上的数据库传到手机上,然后更方便地在手机上进行调用,这样就可以更方便地边看原作,边查数据库了。

上一篇 下一篇

猜你喜欢

热点阅读