只需2行代码,轻松将PDF转换成Word

2023-05-17  本文已影响0人  iBioinformatics

可将 PDF 转换成 docx 文件的 Python 库。该项目通过 PyMuPDF 库提取 PDF 文件中的数据,然后采用 python-docx 库解析内容的布局、段落、图片、表格等,最后自动生成 docx 文件。

pdf2docx功能

pdf2docx同时解析出了表格内容和样式,因此也可以作为一个表格内容提取工具。

限制

安装

pip install pdf2docx

案例

from pdf2docx import parse

pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'

# convert pdf to docx
parse(pdf_file, docx_file)

转自:https://mp.weixin.qq.com/s/LmTJLhwgSRGja6w15yhAOA

上一篇 下一篇

猜你喜欢

热点阅读