搜索引擎@IT·互联网我爱编程

Apache Tika使用报告

2017-05-15  本文已影响1541人  㭍葉

实验对象:Apache Tika
实验目的:通过尝试使用Apache Tika进行文件格式转换,加深对搜索引擎的理解和认识


目录

  1. Apache Tika简介
  2. 配置Apache Tika运行环境
  3. 用GUI图形界面进行文件格式转换的尝试
  4. 用命令行使用Tika
  5. 在java工程中使用Tika

1. Apache Tika 简介


Apache Tika是一个用java编写的内容检测和分析框架,是ApacheLucene项目的子项目。它能够检测很多不同文件类型的文件,并提取文件的元数据和结构化文本。它提供了一个命令行界面和一个GUI界面,还提供一个java库。可用于自然语言处理过程中文本内容的抽取,以及搜索引擎进行数据抓取后的处理步骤。 Tika诞生历程

Tika 架构

Tika 体系结构的四个模块

Tika主要功能

2. 配置Apache Tika运行环境

验证java环境


如果没有配置java环境,请下载配置Java JDK
下载Tika的源代码Mirrors for tika-1.14-src.zip和Tika的jar包Mirrors for tika-app-1.14.jar Tika官网的下载页面

在cmd里键入命令打开GUI图形界面


命令行打开tika

3. 用GUI图形界面进行文件格式转换的尝试

编写一个二进制文件tika_test.txt放在C:\目录下


tika_test.txt

把tika_test.txt拖进gui里,默认显示提取的元数据

MetaData

解析成Formatted Text


Formatted Text

解析成Plain text


Plain text
提取Main content 居然是空的
Main content
解析成XML
xml

解析成json


json

4. 用命令行使用Tika

先来查看Tika命令行的基本参数


基本参数

用命令把doc解析为text


doc text

5. 在java工程中使用Tika

在Eclipse中新建Java项目,并导入tika-app-1.14.jar


编写Test.java

import org.apache.tika.Tika;

import java.io.*;

/**
 * Created by Administrator on 2017/5/15.
 */
public class Test {
    public static void main(String[] args) throws Exception{
        //二进制文件路径
        String fileName="c:/tika_test.txt";

        //二进制文件
        File file1 = new File(fileName);

        //通过tika获取文件内容
        Tika tika = new Tika();
        String filecontent = tika.parseToString(file1);

        //打印文件内容
        System.out.println("Extracted Content: " + filecontent);

        try{

            //要转换到的文件
            File file =new File("c:/ddd.doc");

            //文件不存在就新建
            if(!file.exists()){
                file.createNewFile();
            }

            //把二进制文件内容写入doc文件
            FileWriter fw = new FileWriter(file.getAbsoluteFile());
            BufferedWriter bw = new BufferedWriter(fw);
            bw.write(filecontent);
            bw.close();

            System.out.println("Done");

        }catch(IOException e){
            e.printStackTrace();
        }

    }
}

运行程序

在Eclipse中运行

生成ddd.doc,如下图



生成的doc文件

参考链接:
Apache Tika from EN-Wikipedia
Tika常见格式文件抽取内容并做预处理
Apache Tika:通用的内容分析工具
cmd中java -jar *.jar 提示Unable to access jarfile *.jar或Windows不能用鼠标双击运行jar文件怎么办解决方案
TIKA环境配置
相关链接:
Apache Tika 官网
Apache Tika Wiki
Apache Tika in Github
Book Tika in Action
Natural Language Processing with Python
潜在语义索引

上一篇下一篇

猜你喜欢

热点阅读