关于Apache Tika的学习和使用

2018-05-18 本文已影响0人 Carina_55

一. Apache Tika的简介

Apache Tika 是利用现有的解析类库，从不同格式的文档中（例如HTML, PDF, Doc)，侦测和提取出元数据和结构化内容。该项目的目标使用群体主要为搜索引擎以及其他内容索引和分析工具，编程语言为Java。

其功能包括：
1.侦测文档的类型，字符编码，语言，等其他现有文档的属性。
2.提取结构化的文字内容。

Tika的架构：
下图为Tika的架构以及关键零部件的主要设计目标：由一个解析器框架，MIME检测机制，语言检测，和一个facade组件联系所有组件。外部接口，包括命令行和图形界面，允许用户集成到脚本或者应用程序，并与Tika直接交互。在整个结构中，Tika的体系结构是可扩展的，新的解析器可以轻松地添加和删除。