pdfファイルからすべての画像とテキストを抽出する

pdfからすべての画像とテキストを含むHTMLとしてPDFコンテンツをレンダリングするには、jsonをpdfから作成する必要があります。私はそれを行うために以下のモジュールを試しました。私は現在、単純な画像しか抽出できませんが、グラフィカルな画像と背景の影の画像を抽出することはできません。これらを取得するモジュールはありますか？pdfファイルからすべての画像とテキストを抽出する

モジュールは

-PDFMiner (python) 
-Mammoth(Node) 
-pdf2json(Node) 
-PDFBox(Java)

出典

2017-05-07 mani

* *グラフィカルイメージ*とは対照的に、*プレーンイメージ*とは何ですか？そして、ちょうど*バックグランドシャドウイメージ*は何ですか？そして、あなたはどのように言及されたモジュールで試しましたか？ – mkl

lpie chart、棒グラフはグラフィカルな画像です。他の画像はplain.background画像です。背景画像... – mani

PDF形式では、円グラフや棒グラフを特殊なグラフィックとして認識しません。主にテキスト、ベクトルグラフィックス、およびビットマップグラフィックスを認識します。おそらく、あなたの「グラフィック画像」はあるカテゴリーに分類され、「他の画像」は別のカテゴリに分類されます。 PDFフォーマットは、コンテンツをバックグラウンドとフォアグラウンドにグローバルに分離しません。あなたが背景として認識しているグラフィックは、前景としても、その逆にも使用できます。 – mkl

を試してみましたhttp://pythonhosted.org/PyMuPDF/を見てください。明らかに、この製品はjsonを含むさまざまな形式のページをレンダリングします。私はその経験が限られていますが、http://code.activestate.com/recipes/580703-extract-images-of-a-pdf-optionally-by-page-using-p/history/1/のレシピは、PyMuPDFを使ってPDFから画像を抽出する方法を示しています。

出典

2017-05-08 15:07:44

画像の幅と高さがありますが、画像座標を取得できません – mani

これは新しい質問として投稿する必要があります。 PDFへのリンクを提供してください。問題のあることを示す小さなもの、さらにはコードを投稿することをお勧めします。 –

pdfファイルからすべての画像とテキストを抽出する

答えて

関連する問題