介绍一款Linux下的免费文字识别软件OCRFeeder

2019-01-16 本文已影响102人李默遥

大家有没有看图片格式PDF电子书时，有想把里面的文字导出为文本的想法？今天给大家介绍一款免费的文字识别提取软件——OCRFeeder。

首先依次安装tesseract引擎及所需编译包：
sudo apt-get install tesseract-ocr

sudo apt-get install tesseract-ocr-eng tesseract-ocr-chi-sim

sudo apt-get install autoconf automake libtool

sudo apt-get install libleptonica-dev

再安装OCRFeeder，一般在主流发行版应用商店里都有，这里用的Linux发行版是国产的Deepin 15.8。

装好后，如果程序打不开的话，用管理员身份用编辑器打开/usr/share/applications/ocrfeeder.desktop文件，将其中“exec=ocrfeeder -i %f”中后面的参数“-i %f”去掉，然后保存就能打开了。

软件打开界面

要想识别中文，有一个重要的更改需要做，要将软件工具中的OCR引擎编辑项中把“zh:chi-sim”改为“zh:chi_sim”，这样才能正确地识别中文。修改方式如下图。

找到OCR引擎选项

点编辑选项

将“zh:chi-sim”改为“zh:chi_sim”

这是使用效果：

导入图片并选择识别

导入图片识别

识别中：

识别中

识别结果：

右下为识别结果

另：工具栏文件-“导出PDF格式“实为“导入PDF文件”，是翻译的错误吧。

希望对大家的工作学习能有帮助。