工具癖工具实用小工具

PDF文本化处理-工具入门

2019-03-12  本文已影响43人  北城暖风

由于每份PDF文档的特殊性,涉及到转换后的文本质量问题,本文较适用于百页内文档编辑,不一定适用于超过百页的批量转文本处理,望诸位知悉。

对于PDF转换Word会乱码,大概率与PDF文件中包含多种字体有关,多种字体对应了多种字体编码,而在个人电脑中的字体并不能涵盖PDF文件包含的字体。暂时还没找到有效解决办法。

本文只对工具处理质量进行探讨,取决硬件原因,处理速度不讨论,文中主要为图片表达。


使用工具

ABBYYFineReader 12 Portable、PDFelementPro、AdobeAcrobat XI Pro

如有需要,可在文末下载链接下载。

演示用三种文档:普通扫描版、高清扫描版(文件包含多种字体)和文字版(即非扫描版)。

文档素质一览

普通扫描版 高清扫描版 文字版

工具特点

ABBYY FineReader 和 PDFelement Pro 的OCR识别功能比 Adobe Acrobat XI Pro强很多,ABB的辅助编辑功能更强大,可手动辅助OCR分析区域格式等;而PDFelement 比较简洁,但编辑起来不太自由;而Adobe Acrobat XI Pro用起来就更简单了,比较像是一键操作。

界面及特点一览

ABBYYFineReader 12 Portable界面

ABBYY界面


ABBYY工具


ABBYY输出可选

PDFelementPro界面


PDFelementPro 界面


PDFelementPro识别可选

AdobeAcrobat XI Pro界面


AdobeAcrobat XI Pro界面


AdobeAcrobat XI Pro工具栏

简单对比

(因为工具扫描结果确定,这里只选择导出Word格式文档。需要注意的是,使用PDFelement需要先OCR识别,才能有效保存转换的Word文档)

1.直接导出比较

普通扫描版

ABBY  普通扫描版 PDFelement  普通扫描版 AdobeAcrobat XI Pro  普通扫描版

PDFelementPro 优于ABBYYFineReader ,AdobeAcrobat XI Pro质量捉急。


高清扫描版


ABBYY  高清扫描版


PDFelement  高清扫描版


AdobeAcrobat XI Pro  高清扫描版

同样的,PDFelementPro 优于ABBYYFineReader ,AdobeAcrobat XI Pro质量堪忧。


文字版


ABBYY  文字版


PDFelement  文字版


ABBYY 精确输出 文字版


AdobeAcrobat XI Pro  文字版    

对于非扫描PDF文档,AdobeAcrobat XI Pro 表现最佳,PDFelementPro还好,ABBYYFineReader 对于格式把控不是太好(在精确输出后效果则优于PDFelement)。


简单对比发现,PDFelementPro、ABBYYFineReader 相比较AdobeAcrobat XI Pro表现更优秀,页数较少情况下推荐PDFelementPro,ABBYYFineReader的更能强大,但工作区域使用局限。

输出结果主要还是取决于PDF文件素质。我在使用时在PDFelement 中提取单页文件编辑,有效保证了准确率。对于短时间内高效转换,目前尚有难度。

值得一提的是,对于普通文档中的水印AdobeAcrobat XI Pro可直接删除的,PDFelementPro的删水印功能并不能有效去除。

之前也试过SmallPDF 浏览器插件,由于过程不可视化,对于简单几页的文档尚可,但大多数文档也是无能为力的。


下载链接

ABBYY FineReader

https://pan.baidu.com/s/1aY0oB1pI-68FbnAtn6h4yQ 密码:3189

PDFelement Pro v6.6.2

https://pan.baidu.com/s/12ACw5v1SADixY2FB-0NbXQ 密码:8537

Adobe Acrobat Pro DC 2019.008.20081 中文多语免费版

https://pan.baidu.com/s/14nkDM2sl1JiBX39FhFH5Jg 密码:1376

上一篇下一篇

猜你喜欢

热点阅读