PDF文本化处理-工具入门
由于每份PDF文档的特殊性,涉及到转换后的文本质量问题,本文较适用于百页内文档编辑,不一定适用于超过百页的批量转文本处理,望诸位知悉。
对于PDF转换Word会乱码,大概率与PDF文件中包含多种字体有关,多种字体对应了多种字体编码,而在个人电脑中的字体并不能涵盖PDF文件包含的字体。暂时还没找到有效解决办法。
本文只对工具处理质量进行探讨,取决硬件原因,处理速度不讨论,文中主要为图片表达。
使用工具
ABBYYFineReader 12 Portable、PDFelementPro、AdobeAcrobat XI Pro
如有需要,可在文末下载链接下载。
演示用三种文档:普通扫描版、高清扫描版(文件包含多种字体)和文字版(即非扫描版)。
普通扫描版 高清扫描版 文字版文档素质一览
工具特点
ABBYY FineReader 和 PDFelement Pro 的OCR识别功能比 Adobe Acrobat XI Pro强很多,ABB的辅助编辑功能更强大,可手动辅助OCR分析区域格式等;而PDFelement 比较简洁,但编辑起来不太自由;而Adobe Acrobat XI Pro用起来就更简单了,比较像是一键操作。
界面及特点一览
ABBYYFineReader 12 Portable界面
ABBYY界面PDFelementPro界面
AdobeAcrobat XI Pro界面
简单对比
(因为工具扫描结果确定,这里只选择导出Word格式文档。需要注意的是,使用PDFelement需要先OCR识别,才能有效保存转换的Word文档)
1.直接导出比较
ABBY 普通扫描版 PDFelement 普通扫描版 AdobeAcrobat XI Pro 普通扫描版普通扫描版
PDFelementPro 优于ABBYYFineReader ,AdobeAcrobat XI Pro质量捉急。
高清扫描版
同样的,PDFelementPro 优于ABBYYFineReader ,AdobeAcrobat XI Pro质量堪忧。
文字版
对于非扫描PDF文档,AdobeAcrobat XI Pro 表现最佳,PDFelementPro还好,ABBYYFineReader 对于格式把控不是太好(在精确输出后效果则优于PDFelement)。
简单对比发现,PDFelementPro、ABBYYFineReader 相比较AdobeAcrobat XI Pro表现更优秀,页数较少情况下推荐PDFelementPro,ABBYYFineReader的更能强大,但工作区域使用局限。
输出结果主要还是取决于PDF文件素质。我在使用时在PDFelement 中提取单页文件编辑,有效保证了准确率。对于短时间内高效转换,目前尚有难度。
值得一提的是,对于普通文档中的水印AdobeAcrobat XI Pro可直接删除的,PDFelementPro的删水印功能并不能有效去除。
之前也试过SmallPDF 浏览器插件,由于过程不可视化,对于简单几页的文档尚可,但大多数文档也是无能为力的。
下载链接
ABBYY FineReader
https://pan.baidu.com/s/1aY0oB1pI-68FbnAtn6h4yQ 密码:3189
PDFelement Pro v6.6.2
https://pan.baidu.com/s/12ACw5v1SADixY2FB-0NbXQ 密码:8537
Adobe Acrobat Pro DC 2019.008.20081 中文多语免费版
https://pan.baidu.com/s/14nkDM2sl1JiBX39FhFH5Jg 密码:1376