抽出テキストコンテンツ - txtをするのlinux

-1

私はdocxファイルからテキストを抽出するための次のコードを試してみました。 docxが画像を持っているときは動作しません。をtxtをするPPTXについては

unzip -p some.docx word/document.xml | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g'

、私はTXTを抽出するためのPerlスクリプトを発見しました。 pptxがイメージを持っているときには動作しません。

ドキュメント間で検索オプションを有効にするために抽出されたtxtコンテンツが必要です。そのため、画像をスキップしてdocxのテキストコンテンツをtxtに変換するコマンド/スクリプトも役立ちます！

出典

2017-06-20 RPS

なぜこのタグは 'python'ですか？ – moritzg

私はlinuxコマンドが好きですが、perl/pythonスクリプトでさえそうです。 – RPS

動機があれば、 'strings some.docx'と手でそれをソートしますが、それは長くて苦しいでしょう – Pantoofle

あなたのコードが（How to extract just plain text from .doc & .docx files? (unix)）から得られたSO質問には、他のオプションがあります。

libreoffice --convert-to txt text some.docx

または

libreoffice --headless --convert-to txt text some.docx

がすでに開い libreofficeを持っていないことを確認してください：
libreoffice答えはほとんどの作品は、おそらくしようと今2012年
（LibreOfficeの5.1）で行いました。

出典

2017-06-20 07:40:45

抽出テキストコンテンツ - txtをするのlinux

答えて

関連する問題