PHP读取PDF内容方法

2021-04-25  本文已影响0人  八维数据

读取PDF工具安装教程

我这边使用的是 xpdf工具,是使用最好的一个读取工具,读取的中文不会有乱码出现。

xpdf安装配置

下载:

根据系统选择下载 https://www.xpdfreader.com/download.html

下载xpdf和中文字体,分别解压缩。

文件名: xpdf-tools-win-4.03.zip

中文支持库名:xpdf-chinese-simplified.tar.gz

windows下安装

建立 xpdf 根目录 d:\tool\xpdf

(1)并将xpdf-tools-win-4.03\bin64目录下所有文件复制到 d:\xpdf 下。

(2)将xpdf-chinese-simplified直接解压出的 整个文件夹复制到 d:\xpdf 下。

(3) 复制 xpdf-tools-win-4.03\doc 路径下的 sample-xpdfrc 文件到 d:\tool\xpdf 下,并改名为 xpdfrc。

(4)修改文件 xpdfrc 第73行,将 textEncoding UTF-8 注释打开,指定编码为UTF-8,

(5)并在下面增加 textPageBreaks no 参数,意思是在pdf文档的两页间不加入分行符。

(6)在此文件最后增加以下内容,声明中文字体文件

#----- begin Chinese Simplified support package (2011-sep-02)

cidToUnicode Adobe-GB1 D:/tool/xpdf/xpdf-chinese-simplified/Adobe-GB1.cidToUnicode

unicodeMap ISO-2022-CN D:/tool/xpdf/xpdf-chinese-simplified/ISO-2022-CN.unicodeMap

unicodeMap EUC-CN D:/tool/xpdf/xpdf-chinese-simplified/EUC-CN.unicodeMap

unicodeMap GBK D:/tool/xpdf/xpdf-chinese-simplified/GBK.unicodeMap

cMapDir Adobe-GB1 D:/tool/xpdf/xpdf-chinese-simplified/CMap

toUnicodeDir D:/tool/xpdf/xpdf-chinese-simplified/CMap

#displayCIDFontTT Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/CMap/gkai00mp.ttf

#fontFileCC Adobe-GB1 /usr/…/gkai00mp.ttf

#----- end Chinese Simplified support package

windows下使用方法

windows使用命令:

D:\tool\xpdf\pdftopng.exe -f 1 -l 1 D:\test.pdf D:\testpng

说明:进入D:\tool\xpdf 文件夹中,运行 pdftopng.exe -f 1 -l 1 D:\test.pdf D:\testpng。-f 1 是指从第一页开始。 -l 1 是指第一页结束,最后一个是生成的图片名前缀叫testpng 最终会以testpng-000001.png的形式生成。

如果要导出文本用 pdftotext.exe命令。

php调用方法

<?

$filename="D:/11/02261390000606560259.pdf ";//文件名称及路径

$content = shell_exec ( 'D:/tool/xpdf/pdftotext '.$filename .'-');

echo $content;

?>

上一篇下一篇

猜你喜欢

热点阅读