2010-11-19 10 views
0

word、excel、pptなどのMS Officeファイルからテキストと画像を分離する方法はありますか? と文書内の画像の位置を取得するテキスト間の文書で)?MS Officeファイルから画像とテキストを分離するPython

Linuxボックス用にアプリケーションを開発する必要があります。

お勧めします。

+0

97-2003のファイルがついている場合は、ZIP形式の2007年のファイル(XMLと他のファイルとしての文書)を使用できる場合よりもはるかに難しくなります。 –

+0

[Officeファイル形式はかなり複雑だから]主にこれを行うライブラリがあるとは思わない(http://www.joelonsoftware.com/items/2008/02/19.html) 。イメージを抽出するには、ファイルを.docx/.xlsxファイルとして保存し、名前を「* .zip」に変更して、zipアーカイブ内のイメージを探します。 –

+0

文書をRTF形式で保存すると、別の戦闘機会が発生する可能性があります。その方法は、少なくとも「判読可能な」形式です。おそらくあなたはそこに画像の位置を見つけることができます。 –

答えて

0

OpenOffice-wikiのPython UNOバインディングをhttp://wiki.services.openoffice.org/wiki/Pythonにすると、LinuxでMSOfficeのドキュメントを開いて作業できるようになります。

正確に何を達成しようとしていますか?OfficeドキュメントをHTML化する新しい方法ですか?

+0

はい、あなたはそれを言うことができます。 –

関連する問題