Python 读取 Word 文档操作

2022-11-21  本文已影响0人  逍遥_yjz

安装 python-docx库

pip install python-docx

使用

# coding:utf-8
import re
import docx
file_name = r"document.docx"
doc = docx.Document(file_name)

i = 0
for para in doc.paragraphs:
    i += 1
    print('---------- 第[%d]页 ------===----' % i)
    # print(para.text.strip())
    doc_content = para.text.strip()
    if len(doc_content) < 20:
        continue
    else:
        print(doc_content)
        doc_content = re.subn(' ', '', doc_content)[0]

**读取的结果不用担心跨页的情况,自动成句。

上一篇 下一篇

猜你喜欢

热点阅读