2017-06-20 3 views
-1

DOCX:抽出テキストコンテンツ - txtをするのlinux

私はdocxファイルからテキストを抽出するための次のコードを試してみました。 docxが画像を持っているときは動作しません。をtxtをするPPTXについては

unzip -p some.docx word/document.xml | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g' 

、私はTXTを抽出するためのPerlスクリプトを発見しました。 pptxがイメージを持っているときには動作しません。

ドキュメント間で検索オプションを有効にするために抽出されたtxtコンテンツが必要です。そのため、画像をスキップしてdocxのテキストコンテンツをtxtに変換するコマンド/スクリプトも役立ちます!

+0

なぜこのタグは 'python'ですか? – moritzg

+0

私はlinuxコマンドが好きですが、perl/pythonスクリプトでさえそうです。 – RPS

+0

動機があれば、 'strings some.docx'と手でそれをソートしますが、それは長くて苦しいでしょう – Pantoofle

答えて

3

あなたのコードが(How to extract just plain text from .doc & .docx files? (unix))から得られたSO質問には、他のオプションがあります。

libreoffice --convert-to txt text some.docx 

または

libreoffice --headless --convert-to txt text some.docx 

がすでに開い libreofficeを持っていないことを確認してください:
libreoffice答えはほとんどの作品は、おそらくしようと今2012年
(LibreOfficeの5.1)で行いました。

関連する問題