2011-01-21 23 views
2

私はppt、pptx、doc、docxファイルを開くことができるライブラリを探しています。ppt、pptx、doc、docxファイルからオブジェクトを解析して抽出するためのライブラリを探しています

たとえば、pptでは、画像、テキスト、表のオートシェイプなどのすべてのオブジェクトプロパティを抽出できます。オブジェクトの位置/サイズとフォントサイズ/色/太字などの書式設定を私に提供します。各画像をjpgファイルに保存します。 ライブラリはまた、スライド全体のスナップショットを撮ることができます。

これを行うためにasposeを試しましたが、この情報を得るには正確ではありませんでした。画像が正確でないため、すべてのプロパティとそのエクスポートを抽出しません。それを行うためにオープンオフィスライブラリを使用する上でのアイデアはありますか?

私はJavaまたはC++ライブラリを使用しています。

答えて

1

私たちはopenoffice Java APIを使用して、ppt/pptxファイルからイメージを抽出しました。私はhereからのドキュメントを使用しました。私はあなたが必要とすることを行うためにそのガイドの情報を使うことができると確信しています。

幸運。

+0

ありがとうございました。あなたの助けを借りて ppt/pptxファイルから画像を抽出する簡単な例を指摘できます。私は抽出された画像をasposeから取得した画像と比較する必要があります。 ありがとうございました – mmohab

+0

Apache Tikaを完全なソリューションとして使用できます。もう一つの良いライブラリは[RawText](https://rawtext.ambar.cloud/)です。これは画像上にOCRを行うことができるためです。これはフリーではなく、REST API上で動作します。 – SochiX

1

1つのオプションは、apache poiライブラリです.Openoffice APIよりも周囲に例があり、より多くの資料があるようです。

関連する問題