日更成长营自学编程Python

自学Python:批量提取PPT文档中的文本内容

2021-11-07  本文已影响0人  小强聊成长

如果要把PPT文档中文字内容复制到文本中保存,内容不多的时候手动复制粘贴一下也是很快的,如果你要复制的PPT文档有很多页,那就有点浪费时间了,使用Python代码可以快速提取并保存好。

下面演示的是只提取文本框中的文本,且文本框独立存在,如果是位于形状组合中的就不能提取出来了。

完整的代码如下:

from pptximport Presentation

from docximport Document

word_file = Document()

file_path ='d:\\11\\PowerPoint 演示文稿.pptx'

ppt = Presentation(file_path)

for iin ppt.slides:

for jin i.shapes:

if j.has_text_frame:

text_frame = j.text_frame

for paragraphin text_frame.paragraphs:

word_file.add_paragraph(paragraph.text)

save_path ='d:\\22\\22.docx'

word_file.save(save_path)

执行完毕后查看,发现有很多汉字没有显示,不知道是什么问题,有高手路过可以留言指导一下。

________________END______________

上一篇下一篇

猜你喜欢

热点阅读