法律检索简史:法律检索的昨天、今天和明天
敏嗲嗲原创
分析和确认问题、获取法律信息、表述结论和方案是法律调研必经的三个阶段。其中获取法律信息是关键性的阶段,资料的齐备、准确、有效与否,一定程度上决定案件的成败,关系当事人的利益。法律检索是获取法律信息的途径,今天我们要讨论的就是法律检索。
关于法律检索,前人的文章已经写得够多的了。但经过分析发现,他们大多在讨论法律信息检索的技术和方法。我要么讨论法律知识检索,要么另辟蹊经。知识检索最早是谷歌在2012年提出来的,法律知识检索作为一个新生儿,也是最近一两年才出现的。其还在“吃奶”的年纪,骨架都没长全,现在出来“晒娃”未免拾人牙慧。所以我还是选择另辟蹊径,换个视角去看待法律检索这件小事
搜狗微信搜索“法律检索”结果展示
唐太宗曾和魏征曰过:“以铜为镜,可以正衣冠;以人为镜,可以明得失;以史为镜,可以知兴替。”我平时掌握一个新知识和技能有三个线索:历史、代表性人物和经典著作。从历史的角度去观察一个事物是个很不错的角度。大学以来也看过不少简史方面的书,比如《人类简史》《未来简史》《信息简史》《金融简史》《中国创投简史》等。最近还分享了一篇《人工智能发展简史》的文章。那是不是也可以写一篇《法律检索简史》的文章呢?法律有其发展规律,历史有其发展规律,技术也有其发展规律,那么三者结合的产物是不是也有其发展规律呢?计算机、互联网、大数据、人工智能,技术的发展是要解放法律人还是替代法律人?本文就从法律检索发展的历史中去寻找线索,试图捕捉法律检索技术的发展规律。
法律检索简史,短短六个字,意味着要遍历法律检索百年多的历史,并从中归纳、洞察出一条主线,从而让你们理解法律检索的本质及其内在的发展规律。
究竟哪个主线最有价值呢?
本人曾尝试过借鉴《人工智能发展简史》里面采用的“时间+标志性事件”的模式,写个标志性事件列表;也曾想借鉴《中国创投简史》中采用“关键性人物”的模式,选取倪正东、徐新、徐小平 、熊晓鸽等中国创投界的大咖来讲故事;还曾想过借鉴《信息简史》中采用“技术发展史”的模式,从鼓的发现,用鼓来沟通和传递信息讲到人工智能搜索引擎的开发,自动推送信息。但总觉得不够既简单又全面地反映法律检索发展的来龙去脉和未来发展趋势。
《人类简史》作者 尤瓦尔·赫拉利
最后,经过一番思考之后,我决定还是回归“人”这一维度,从人的需求出发,给法律检索作一个划分。
法律检索的目的是为了获取法律信息,信息是过去知识的编码,是有规律的数据,是静态的概念。知识则是有价值及效用的信息。信息经过加工处理、应用于生产,才能转变成知识。而智慧则是建立在“数据-信息-知识”之上并主要以已有的知识存量为基础的一种更高层次的知识创造活动。如果按需求程度由低到高给检索做个排序的话,依次是获取信息、获取知识、获取智慧。这与人类的认知规律是一致的 。
在此基础上,我将法律检索的演变划分为三个阶段:
-
法律检索的昨天--信息检索(19世纪80年代--21世纪初)
-
法律检索的今天--知识检索(21世纪初--未来一段时间)
-
法律检索的明天--智慧检索(未来)
这样规划归纳可能有些抽象,说得简单点可以理解为:专业关键词检索、自然语言检索、自动检索。
专业关键词检索是每一个执业的法律人都要学习的事,专业关键词检索阶段,专业的人干专业的事,没有受过专业法律训练的人很难完成任务;自然语言检索阶段,法律检索不再是专业法律人的专利,一般的社会大众也能使用法律检索软件,比如最近元典的一位技术人员利用智能定罪量刑系统成功预测了郎永淳酒驾的罪名、刑期和罚金。当然专业人士使用检索工具将会更加简便、高效;自动检索阶段,机器成为法官助理、律师助理,不仅懂法律,更懂法律人,能够提前知道你想要什么,并且把你最想要的结果呈现给你。
元典工作人员朋友圈截图
下面对这三个阶段进行详述,通过对法律检索简史的回顾,发掘法律检索的本质和未来发展趋势。并由此思考我们法律人作为时代洪流中的微小个体,又该如何安身立命?
法律检索的昨天--法律信息检索(19世纪80年代--21世纪初)
信息检索起源于参考咨询工作,参考咨询工作产生的标志是1876年召开的美国图书馆协会第一届大会。1883年,波士顿公共图书馆首次设置了专职参考馆员和参考阅览室。法律信息检索呢?技术的普及与适用有其内在的发展规律,大体的规律是产生于军事领域,传播到政界和教育界,商界将其商业化最终普及到每一个人。技术从开始应用到应用到法律行业会有时空上的延迟,但大体上方向与整体发展趋势是一致的,法律行业更多的是被动地接受技术洪流的洗礼,后知后觉。
依据信息存储与检索的方式,又可以将法律信息检索分为三个阶段:手工信息检索、机械信息检索和计算机信息检索。
a、 手工信息检索(20世纪初-20世纪40年代)
手工信息检索工具主要是各种类型的工具书,工具书是根据一定的需要,比较完备地汇集某一方面的资料,并按特定的方法加以编排,专供读者查考检索有关知识、资料、事实的书籍。据工具书的体例和功能,可分为检索型工具书、参考性工具书、词语性工具书、表谱性工具书、图录性工具书和边缘性工具书6种类型。
-
20世纪初,多数图书馆成立了参考咨询部门,主要利用图书馆的书目工具来帮助读者查找图书、期刊或现成答案。逐渐发展到从多种文献源中查找、分析、评价和重新组织信息;“索引”突破了以前的狭隘范畴,成为独立的检索工具。
1905-1949西北地方文献索引(馆藏报刊)甘肃省图书馆
-
40年代进一步包括回答事实性咨询,编制书目、文摘,进行专题文献检索,提供文献代译等。“信息检索”从此成为一项独立的用户服务工作,并逐渐从单纯的经验工作向专业化方向发展。
b、机械信息检索(20世纪40年代-20世纪60年代)
机械信息检索并没有发展信息检索语言,只是采用单一的方法对固定的存贮形式进行检索,而且过分依赖于设备,检索复杂,成本较高,检索效率和质量都不理想
机电信息检索系统:继手检穿孔卡片之后,出现了机检穿孔卡片和选卡机。这就形成了机电信息检索系统。
机检穿孔卡片
光电信息检索系统: 主要是以缩微胶卷(片)检索方式出现的
蒋介石日记的缩微胶卷样品
法律信息检索在此阶段无相关资料可供参考,因此默认为法律检索在此阶段发生断层。
c、计算机信息检索(20世纪70年代-21世纪初)
计算机信息检索指利用计算机存储资料并进行检索,计算机信息检索可分为单机信息检索、联机信息检索和网络信息检索三个阶段。在这一阶段,我们会发现,我们的记忆和常识慢慢开始发挥作用了,因为这一阶段是离我们现在的法律检索最近的阶段。
单机信息检索(光盘)
-
1951年WestLaw的创始人 奥泊曼从德雷克大学(Drake University)法学院毕业后加入了位于双城的韦斯特法律出版公司,担任法律编辑。他兢兢业业,终于成为公司的首席执行官,并引导韦斯特成为了世界上最大的法律出版商之一,并在1970年代研发了划时代的电子法律数据库平台Westlaw。
WestLaw的创始人 奥泊曼
-
1972年, 汤姆森集团公司创始人罗伊和肯恩访问中国, 受到周总理亲切接见,他们还登上了长城。万律(Westlaw China)是汤森路透法律信息集团基于世界领先的Westlaw法律信息平台的技术和经验打造的智能化中国法律信息双语数据库,为法律执业人士提供较佳的中国法律解决方案。
汤姆森集团公司创始人罗伊和肯恩访问中国
-
1985年10月,由北京大学法律系提供设计方案和信息内容,委托北京大学计算中心开发软件,成功推出全国第一套法律软件――《CHINALAW涉外经济法规查询系统(中英文对照)》,引起国内法律界的瞩目。
-
1996年,北京大学法制信息中心研制、北京大学出版社出版的《中国法律检索系统》普及型法律光盘 《中国法律法规大全》,面向广大家用多媒体电脑用户大量发行,受到社会各界的广泛好评,取得良 好社会效益,为我国“三五普法规划”作出重要贡献。
单机检索,不受线路影响,一般局域网用户使用。但是如果光盘数据库量不够多,则信息资源就显得有限,购买大量光盘数据库,又要受到经费限制。单机检索数据库的更新周期长。一般的光盘数据库更新要1个月或更长,而网络数据库的更新周期一般是1周或更短。
联机信息检索(专线网络)
联机信息检索即用户利用终端设备,通过通讯网络与世界各地的信息检索系统联机,进行人机对话,从检索系统的数据库中查找出用户所需信息的全过程。
我国联机存取服务始于1974年,比较有影响的联机存取系统有:
万方数据资源系统:http://www.wanfangdata.com.cn/
CNKI数据资源系统:http://www.cnki.net
维普数据资讯系统: http://www.cqvip.com/
网络信息检索
在这一阶段,搜索引擎开始出现。搜索引擎是提供给用户进行关键词、词组或自然语言检索的工具,简言之,就是一种在互联网上查找信息的工具。搜索引擎作为检索工具的延伸,其检索的结果主要是WWW上的主页、新闻组中的文章、软件的存放地址及其作者、企业网站、个人主页等。
-
1990年,第一个互联网上的搜索引擎Archie出现,用于搜索FTP服务器上的文件。当时基于HTTP协议的Web还没有出现。
-
1993年的六月中旬,第一个Web搜索引擎World Wide Web Wanderer出现,它只收集网址,并没有索引文件内容。同年的十月,第二个Web搜索引擎ALIWEB的出现,开始索引文件元信息(也就是标题标签等信息),也还没有索引文件主体内容。
-
1994年的正月,Infoseek创立,其搜索服务稍后才正式推出。Infoseek是早期最重要的搜索引擎之一,也许站长提交网址是从Infoseek开始的。百度创始人李彦宏就是Infoseek的核心工程师之一。
-
1994年4月,斯坦福大学两位博士生杨致远和David Filo共同创办了雅虎,通过著名的雅虎目录为用户提供导航服务。雅虎目录有近100万个分类页面,14个国家和地区当地语言的专门目录,包括英语、汉语、丹麦语、法语、德语、日语、韩文、西班牙语等。自问世以来,雅虎目录已成为最常用的在线检索工具之一,并成功地使搜索引擎的概念深入人心。
-
1996年的三月份,Google作为创始人LarryPage和SergeyBrin在斯坦福大学的研究项目开始,当时的名称是BackRub,1997年才改名为Google。
-
1999年9月,雅虎中国网站开通。2005年10月,中国雅虎由阿里巴巴集团全资收购。中国雅虎(www.yahoo.com.cn)开创性地将全球领先的互联网技术与中国本地运营相结合,并一直致力于以创新、人性、全面的网络应用,为亿万中文用户带来最大价值的生活体验。
-
1999年底,身在美国硅谷的李彦宏看到了中国互联网及中文搜索引擎服务的巨大发展潜力,抱着技术改变世界的梦想,他毅然辞掉硅谷的高薪工作,携搜索引擎专利技术,于 2000年1月1日在中关村创建了百度公司。
-
2004年8月3日搜狐公司推出了全球首个第三代互动式中文搜索引擎-搜狗,域名为www.sogou.com。
以上是综合型独立搜索引擎的一些发展历史,除了综合型独立搜索引擎外,还有垂直型独立搜索引擎,比如法律搜索引擎,其专门搜索法律行业的信息。
-
1998年北京大学法制信息中心独立开发《中国法律检索系统》浏览器版,将新产品定名为“北大法宝”。
随着互联网技术的发展,从PC互联网到移动互联网,又出现了一些新的搜索方式。
WAP搜索(移动网页端搜索):移动互联网背景下,用户可以随时随地,想搜就搜。
-
2006年6月,北大法律信息网手机版正式启用,手机用户均可通过手机上网,免费访问北大法 律信息网手机版(wap.chinalawinfo.com),该站点(wap.chinalawinfo.com)提供部分“法律法规检索”“法律新闻”和“法律案例”,方便广大手机用户了解法律业界
北大法律信息网
SNS搜索(社交网络搜索):我们接触的比较多的像微博搜索、微信搜索。在法律行业,比较有名的有无讼。
-
2014年无讼网络科技成立,从检索工具和阅读工具切入,连接法律共同体,已经成为我国最大的法律人社交平台。
无讼PC Web端产品官网
语音搜索
-
2016年3月31日,中国首个法律知识和案例大数据融合服务平台--“法信”在中国最高人民法院上线。该法律数字平台为法律人提供一站式专业知识解决方案、类案剖析同案智推服务,并向社会大众提供法律规范和裁判规则参考。随后,其推出同版APP,支持语音搜索。
法信—中国法律应用数字网络服务平台"于2016年3月31日上线
-
2016年6月,世界上第一个机器人律师ROSS入职律师事务所。Ross 是一个先进的研究机器,律师们可以像与同事对话一样用自然语言( natural language)向 Ross 提问,Ross 则通过阅读各项法律法规、收集证据、做出推论,从而给出与证据高度相关的答案。拥有机器学习能力的它可以通过以往的法律案例和与人类的互动当中不断提升自己的答疑能力,使自身性能与准确率获得持续提升。
Ross Intelligence的负责人Andrew Arruda
法律检索的今天--法律知识检索(21世纪初--未来一段时间)
知识检索是指在知识组织的基础上,从知识库中检索出知识的过程,是一种基于知识组织体系,能够实现知识关联和概念语义检索的智能化的检索方式。
-
2012年5月7日,Google在其官方博客中宣称:为了让用户能够更快更简单的发现新的信息和知识,Google搜索将发布“知识图谱”(Knowledge Graph)——可以将搜索结果进行知识系统化,任何一个关键词都能获得完整的知识体系。 比如搜索“Amazon”(亚马逊河),一般的搜索结果会给出和Amazon最相关的信息。比如Amazon网站,因为网上关于它的信息最多,但Amazon并不仅仅是一个网站,它还是全球流量最大的Amazon河流。如果在追溯历史,它可能还是希腊女战士一族的代称。而这些结果未来都会在Google搜索的“知识图谱”中展现出来。
谷歌知识检索“Marie Curie”的结果
-
2012年11月22日,搜狗搜索历时一年多研发,精心打造的战略级产品--知立方成功上线。作为国内首个引入的搜索引擎“中文知识图谱”,它的上线拉开了国内“下一代搜索引擎”探索的序幕。
搜狗知立方“姚明”的关系图
-
2013年08月22日,百度世界大会,李彦宏说我们把知识图谱的技术开始应用到百度的大搜索里面去,人和人之间的关系,物和物之间的关系,我们越来越把它搞清楚了。你去问“谢霆锋的儿子是谁”或者“谢霆锋是谁的儿子”,我们都可以正确告诉你答案。
百度搜索“谢霆锋是谁的儿子”结果
在法律行业
-
2017年10月19日,华宇软件子公司华宇元典开发的法律率检索系统--元典智库正式发布。 元典智库是运用知识图谱等语义理解技术的检索工具,支持案例研判、法律法规以及裁判观点三大模块,并且与"元典律智平台"打通,极大提升律师工作效率。
元典智库官网
法律检索的明天--法律智慧检索(未来)
目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的网络内容。 在未来的时代,信息检索将出现信息智能化、个性化、专业化、多样化的检索引擎。
智能搜索引擎是结合了人工智能技术的新一代收索引擎,它使因特网信息检索从基于关键词检索提高到基于知识或概念检索,并对知识有一定的理解及处理能力,能够实现分词技术、同意词技术、概念搜索、短语识别及机器翻译等技术。智能检索是基于自然语言的检索形式,机器根据用户所提供的以自然语言表述的检索要求进行分析,而后形成检索策略进行搜索。用户所需要做的仅仅是告诉计算机想做什么,至于怎样实现则无须人工干预,这意味着用户将彻底从繁琐的规则中解脱出来。在检索服务方面,提高检索质量需求最基本的一点就是判定用户是在寻找快速的回应还是精确地检索结果并分析查询中隐含的“意义范围”,即词语在不同领域的含义。
个性化信息检索是指能够为具有不同信息需求的用户提供个性化检索结果的技术。即对不同用户提供的同一种查询词语也能按照不同的用户需求而生成不同的检索结果。
纵观法律检索的历史,可以发现法律检索有如下的发展趋势:
-
从技术上来看,法律检索呈现出电子化、数字化、网络化、智能化演变路径和发展趋势。随着ROSS法律机器人的诞生并应用到实际的法律工作中,初级的法律工作者正在逐渐被智能机器所替代。
-
从法律检索的内容上来看,法律检索呈现出从信息到知识再到智慧的发展趋势。技术的本质就是为了更好地满足人的需求,这一发展趋势是符合人的认知规律的结果。
-
从法律检索的功能上来看,法律检索从单一的千人一面的关键词检索向智能化、个性化、专业化、多样化的方向发展。
-
从法律检索使用者上来看,使用者的门槛越来越低,逐步走向无人化。技术是呈指数型发展的,法律人的明天会怎样?我想不会很乐观。
钱穆先生有句话说:“过去未去,未来已来”,技术革命就像一场春雨,随风潜入夜,润物细无声。互联网界也有一句话叫“淘汰人的从来不是年龄,而是工具。”选择和谁一起工作,用什么样的工具工作决定了你的未来。
面对这样一个新知识、新技术不断涌现、知识新陈代谢频繁的世界,想要一劳永逸的获得知识是不现实的,我们只有终身学习、不断获取、更新知识,才能不被社会所淘汰。要有效、快速的获得和利用最新的信息,就必须使用最先进的检索工具并掌握最先进的信息检索的技能。法律行业和法律人不也一样吗?