Python 操作PDF库介绍之PDFMiner

2019-02-24 本文已影响5人 iCloudEnd

介绍

PDFMiner是一种从PDF文档中提取信息的工具。与其他PDF相关工具不同，它完全专注于获取和分析文本数据。
PDFMiner允许人们获取页面中文本的确切位置，以及字体或线条等其他信息。
它包括一个PDF转换器，可以将PDF文件转换为其他文本格式（如HTML）。它具有可扩展的PDF解析器，可用于除文本分析之外的其他目的。

特点

完全用Python编写。（适用于2.4或更高版本）
解析，分析和转换PDF文档。
PDF-1.7规范支持。（好吧，差不多）
CJK语言和垂直编写脚本支持。
各种字体类型（Type1，TrueType，Type3和CID）支持。
基本加密（RC4）支持。
PDF到HTML转换（使用示例转换器Web应用程序）。
大纲（TOC）提取。
标记内容提取。
通过对文本块进行分组来重建原始布局

安装

github:
https://github.com/euske/pdfminer/

使用

pdf2txt.py samples/simple1.pdf

pyd2txt

Python 操作PDF库介绍之PDFMiner

介绍

特点

安装

使用

猜你喜欢

热点阅读