-1
DOCX:抽出テキストコンテンツ - txtをするのlinux
私はdocxファイルからテキストを抽出するための次のコードを試してみました。 docxが画像を持っているときは動作しません。をtxtをするPPTXについては
unzip -p some.docx word/document.xml | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g'
、私はTXTを抽出するためのPerlスクリプトを発見しました。 pptxがイメージを持っているときには動作しません。
ドキュメント間で検索オプションを有効にするために抽出されたtxtコンテンツが必要です。そのため、画像をスキップしてdocxのテキストコンテンツをtxtに変換するコマンド/スクリプトも役立ちます!
なぜこのタグは 'python'ですか? – moritzg
私はlinuxコマンドが好きですが、perl/pythonスクリプトでさえそうです。 – RPS
動機があれば、 'strings some.docx'と手でそれをソートしますが、それは長くて苦しいでしょう – Pantoofle