Python 操作PDF库介绍之PDFMiner
2019-02-24 本文已影响5人
iCloudEnd
Python 操作PDF库介绍之PDFMiner
介绍
PDFMiner是一种从PDF文档中提取信息的工具。与其他PDF相关工具不同,它完全专注于获取和分析文本数据。
PDFMiner允许人们获取页面中文本的确切位置,以及字体或线条等其他信息。
它包括一个PDF转换器,可以将PDF文件转换为其他文本格式(如HTML)。它具有可扩展的PDF解析器,可用于除文本分析之外的其他目的。
特点
- 完全用Python编写。 (适用于2.4或更高版本)
- 解析,分析和转换PDF文档。
- PDF-1.7规范支持。 (好吧,差不多)
- CJK语言和垂直编写脚本支持。
- 各种字体类型(Type1,TrueType,Type3和CID)支持。
- 基本加密(RC4)支持。
- PDF到HTML转换(使用示例转换器Web应用程序)。
- 大纲(TOC)提取。
- 标记内容提取。
- 通过对文本块进行分组来重建原始布局
安装
github:
https://github.com/euske/pdfminer/
使用
pdf2txt.py samples/simple1.pdf
pyd2txt