現在、私はすべてのテキストチャンクをPDFからその位置データで抽出できます。問題は、PDFに、抽出に含めたくないテキスト注釈を含む画像が含まれていることです。テキストを抽出して画像座標を取得するときのPDFのセクションをスキップ
しかし、画像を検索するたびに何らかの理由で画像が1つしか見つからず、通常は例外がスローされます。色空間はサポートされていません。画像として認識しないかのようですか?
私はイメージを抽出したいのではなく、イメージの上にあるテキストを除外することができるように、PDFに対して開始して終了する場所を特定します。例えば
:グラフ上の数字は不要であり、抽出されたテキストから除去する必要
。
イムするかどうかは、単にわからない:すべての画像を見つけて、それが始まるの座標を格納し、
Bを終了)画像の上にあるテキストを無視
A) PDFドキュメント
(私はこれを試してみて、達成するためにiTextSharpを使用していますが、これまでのところ、私は多くの幸運を持っていないです)
OK私は見ています、私は彼らが正直なストリームであると感じています..ストリームが彼らが位置しているページを指定するかどうか知っていますか?ありがとう – cookies