pdfplumber

2023-02-12  本文已影响0人  SingleDiego

官方 Github:https://github.com/jsvine/pdfplumber






pdfplumber 是一个用于提取 pdf 文件里的表格信息的 python 库。

安装

pip install pdfplumber






简单例子

import pdfplumber

with pdfplumber.open("path/to/file.pdf") as pdf:
    first_page = pdf.pages[0]
    print(first_page.chars[0])






加载 pdf 文件

使用 pdfplumber.open(x) 命令来加载已存在的 pdf 文件,open() 方法返回一个 pdfplumber.PDF 类。

加载含密码的 pdf 文件需要传入密码参数,如:pdfplumber.open("file.pdf", password = "test")






pdfplumber.PDF 类

pdfplumber.PDF 类的实例会含有两个属性:

with pdfplumber.open("path/to/file.pdf") as pdf:
    print(pdf.metadata)
    print(pdf.pages)

# 输出

{'Author': 'Acer', 'CreationDate': "D:20200421133330+08'00'", 'Creator': 'Microsoft® Word 2010', ......'}
[<Page:1>, <Page:2>, <Page:3>,]






pdfplumber.Page 类

pdfplumber.Page 类是 pdfplumber 的核心。我们大多数操作都是通过这个类进行的;它拥有以下属性。

它包含的方法有:

下面来开一个提取 pdf 表格的例子:

import pdfplumber

with pdfplumber.open("file.pdf") as pdf:
    page = pdf.pages[1]
    table = page.extract_tables() 
    print(table)
上一篇 下一篇

猜你喜欢

热点阅读