从docx文件中提取纯文本

2019-11-28  本文已影响0人  已不再更新_转移到qiita

解压docx文件

直接使用unzip file.docs 命令,解压出来很多文件

├── [Content_Types].xml
├── _rels
├── docProps
│   ├── app.xml
│   └── core.xml
└── word
    ├── _rels
    │   └── document.xml.rels
    ├── document.xml
    └── settings.xml

查看下 word/document.xml的内容,非常标准的xml格式的文件

提取 xml中的纯文本

cat word/document.xml sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g'

组合命如下, unzip -p 是解压文件到管道流,而不是输出文件。

unzip -p file.docx word/document.xml | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g'

参考:

https://www.commandlinefu.com/commands/view/4311/extract-plain-text-from-ms-word-docx-files

上一篇下一篇

猜你喜欢

热点阅读