私はppt、pptx、doc、docxファイルを開くことができるライブラリを探しています。ppt、pptx、doc、docxファイルからオブジェクトを解析して抽出するためのライブラリを探しています
たとえば、pptでは、画像、テキスト、表のオートシェイプなどのすべてのオブジェクトプロパティを抽出できます。オブジェクトの位置/サイズとフォントサイズ/色/太字などの書式設定を私に提供します。各画像をjpgファイルに保存します。 ライブラリはまた、スライド全体のスナップショットを撮ることができます。
これを行うためにasposeを試しましたが、この情報を得るには正確ではありませんでした。画像が正確でないため、すべてのプロパティとそのエクスポートを抽出しません。それを行うためにオープンオフィスライブラリを使用する上でのアイデアはありますか?
私はJavaまたはC++ライブラリを使用しています。
ありがとうございました。あなたの助けを借りて ppt/pptxファイルから画像を抽出する簡単な例を指摘できます。私は抽出された画像をasposeから取得した画像と比較する必要があります。 ありがとうございました – mmohab
Apache Tikaを完全なソリューションとして使用できます。もう一つの良いライブラリは[RawText](https://rawtext.ambar.cloud/)です。これは画像上にOCRを行うことができるためです。これはフリーではなく、REST API上で動作します。 – SochiX