word、excel、pptなどのMS Officeファイルからテキストと画像を分離する方法はありますか? と文書内の画像の位置を取得するテキスト間の文書で)?MS Officeファイルから画像とテキストを分離するPython
Linuxボックス用にアプリケーションを開発する必要があります。
お勧めします。
word、excel、pptなどのMS Officeファイルからテキストと画像を分離する方法はありますか? と文書内の画像の位置を取得するテキスト間の文書で)?MS Officeファイルから画像とテキストを分離するPython
Linuxボックス用にアプリケーションを開発する必要があります。
お勧めします。
OpenOffice-wikiのPython UNOバインディングをhttp://wiki.services.openoffice.org/wiki/Pythonにすると、LinuxでMSOfficeのドキュメントを開いて作業できるようになります。
正確に何を達成しようとしていますか?OfficeドキュメントをHTML化する新しい方法ですか?
はい、あなたはそれを言うことができます。 –
97-2003のファイルがついている場合は、ZIP形式の2007年のファイル(XMLと他のファイルとしての文書)を使用できる場合よりもはるかに難しくなります。 –
[Officeファイル形式はかなり複雑だから]主にこれを行うライブラリがあるとは思わない(http://www.joelonsoftware.com/items/2008/02/19.html) 。イメージを抽出するには、ファイルを.docx/.xlsxファイルとして保存し、名前を「* .zip」に変更して、zipアーカイブ内のイメージを探します。 –
文書をRTF形式で保存すると、別の戦闘機会が発生する可能性があります。その方法は、少なくとも「判読可能な」形式です。おそらくあなたはそこに画像の位置を見つけることができます。 –