pdfからすべての画像とテキストを含むHTMLとしてPDFコンテンツをレンダリングするには、jsonをpdfから作成する必要があります。私はそれを行うために以下のモジュールを試しました。私は現在、単純な画像しか抽出できませんが、グラフィカルな画像と背景の影の画像を抽出することはできません。これらを取得するモジュールはありますか?pdfファイルからすべての画像とテキストを抽出する
モジュールは
-PDFMiner (python)
-Mammoth(Node)
-pdf2json(Node)
-PDFBox(Java)
* *グラフィカルイメージ*とは対照的に、*プレーンイメージ*とは何ですか?そして、ちょうど*バックグランドシャドウイメージ*は何ですか?そして、あなたはどのように言及されたモジュールで試しましたか? – mkl
lpie chart、棒グラフはグラフィカルな画像です。他の画像はplain.background画像です。背景画像... – mani
PDF形式では、円グラフや棒グラフを特殊なグラフィックとして認識しません。主にテキスト、ベクトルグラフィックス、およびビットマップグラフィックスを認識します。おそらく、あなたの「グラフィック画像」はあるカテゴリーに分類され、「他の画像」は別のカテゴリに分類されます。 PDFフォーマットは、コンテンツをバックグラウンドとフォアグラウンドにグローバルに分離しません。あなたが背景として認識しているグラフィックは、前景としても、その逆にも使用できます。 – mkl