自学Python:批量提取PPT文档中的文本内容
2021-11-07 本文已影响0人
小强聊成长
如果要把PPT文档中文字内容复制到文本中保存,内容不多的时候手动复制粘贴一下也是很快的,如果你要复制的PPT文档有很多页,那就有点浪费时间了,使用Python代码可以快速提取并保存好。
下面演示的是只提取文本框中的文本,且文本框独立存在,如果是位于形状组合中的就不能提取出来了。
完整的代码如下:
from pptximport Presentation
from docximport Document
word_file = Document()
file_path ='d:\\11\\PowerPoint 演示文稿.pptx'
ppt = Presentation(file_path)
for iin ppt.slides:
for jin i.shapes:
if j.has_text_frame:
text_frame = j.text_frame
for paragraphin text_frame.paragraphs:
word_file.add_paragraph(paragraph.text)
save_path ='d:\\22\\22.docx'
word_file.save(save_path)
执行完毕后查看,发现有很多汉字没有显示,不知道是什么问题,有高手路过可以留言指导一下。
________________END______________