2016-11-22 16 views
1

現在、私はすべてのテキストチャンクをPDFからその位置データで抽出できます。問題は、PDFに、抽出に含めたくないテキスト注釈を含む画像が含まれていることです。テキストを抽出して画像座標を取得するときのPDFのセクションをスキップ

しかし、画像を検索するたびに何らかの理由で画像が1つしか見つからず、通常は例外がスローされます。色空間はサポートされていません。画像として認識しないかのようですか?

私はイメージを抽出したいのではなく、イメージの上にあるテキストを除外することができるように、PDFに対して開始して終了する場所を特定します。例えば

:グラフ上の数字は不要であり、抽出されたテキストから除去する必要 enter image description here

イムするかどうかは、単にわからない:すべての画像を見つけて、それが始まるの座標を格納し、

Bを終了)画像の上にあるテキストを無視

A) PDFドキュメント

(私はこれを試してみて、達成するためにiTextSharpを使用していますが、これまでのところ、私は多くの幸運を持っていないです)

答えて

1

に私がs正確ではありませんよiTextSharpがどのように機能するのかは分かりますが、PostScript言語リファレンスやPDF Referenceマニュアルは、あなたが知る必要があるものを見つけ出すのに適しています。

私はしばらくそれを見ていないし、問題が何であるかを理解していないので、私はちょうどテキストエディタでPDFファイルを開いてフォーマットをチェックアウトした。

PDFは「画像」と画像データを含むことができる「ストリームオブジェクト」をサポートしています。ストリームオブジェクトは、実際に開始および終了する場所を知ることができ、手動で無視するために何かを書くことができる十分な情報を実際に宣言します。 ヘッダーは次のようになりますストリームオブジェクト:

<</Intent/RelativeColorimetric/Subtype/Image/Length 19678/Filter/DCTDecode/Name/X/Metadata 4314 0 R/BitsPerComponent 8/ColorSpace 5247 0 R/Width 290/Height 372/Type/XObject>>stream

それはあなたの特定のPDFが一つだけの「イメージ」を持っていることは完全に可能だし、それの残りの部分は、「ストリーム」です。

私はそれを開いて見てみることをお勧めします。また、使用しているライブラリにいくつかのサンプルコードを組み込んだ方が有益でしょう。

また、テキストエディタでこの文字列/Type /Pageを開くと、新しいページが作成されているように見えるので、現在表示しているページを特定できる可能性があります。

私が検討している文書の先頭のヘッダーは%PDF-1.2で、最新のバージョンは1.7です。そのため、ここではいくつかの相違があるかもしれません。

あなたが作業しているPDFファイルを共有することはできますか?

+0

OK私は見ています、私は彼らが正直なストリームであると感じています..ストリームが彼らが位置しているページを指定するかどうか知っていますか?ありがとう – cookies

関連する問題