3

質問は奇妙なようですが、画像としてのテキストと画像を画像として比較すると、かなり興味深い出力を目にしているので、これを尋ねる必要があります。画像と画像としてのテキストの差異画像

理想的には、2つのpdfsを比較するためのツールやアルゴリズムを特定するプロセスで、それらの違いを強調する出力を生成します。

pdfsには画像形式のテキスト(論文の従来のテキストはpdfsに変換されます)があります。

私たちはこれらのレガシーpdfsの移行を行っており、最後にレガシー変換pdf出力と比較しています。

私はAdobe dc pro、i-net pdfc、power pdfなどの2つのpdfを比較するためのツールをいくつか評価しています。

評価中、私はグラフィック画像がpdfsの両面で比較されている(どちらも正確ではない)ことがわかりました。画像と同じようにテキストが完全に無視される場合、すべてのツールで全面的に同じ結果になります。

しかし私は、従来のテキストpdfの多くを扱っているので、イメージとしてのテキストにもっと興味があります。

以下、グラフィックイメージの比較結果を添付して、イメージ間の違いをキャプチャすることができます。

graphic image

しかし、私はテキスト画像を比較すると、違いは、ツールで強調表示されていません。私は画像、グラフィックス、およびツールは、完全な比較を無視しているようテキストが比較されていない、このことから理解何

text image

。私の仮定が正しいかどうかを明確にしたいと思います。

第2に、pdfsのテキストイメージを比較して差異を生成する方法を知りたいと思いますか?私は、私は同様にあなたの最初の質問にお答えしますアイネットPDFCの著者である会社のために働いている

+1

あなたが使用しているツールの作者のみがあなたの最初の質問に答えることができます。 2番目の質問はOCRによって答えられます...あなたはテキストを(典型的なプロパティによって)OCRで両方の画像で比較し、文字列を比較したり、書式を比較したりする必要があります。 – Spektre

答えて

4

あなたの仮定が正しいです。 i-net PDFCはイメージと図形を比較することができますが、内容が完全に変更されたかどうかを検出することはできません。文字を描くために使用される線の形、またはあなたの場合にはテキストとして認識されなければならない画像。 ASCIIアートをイメージとして認識することは、同じ理由でうまくいきません。このようなケースは、視覚的な外観が類似していても常に差異として検出されます。

2番目の質問では、この問題の一般的な解決策として、一方または両方のドキュメントにOCR変換ツールを使用する方法があります。変換されたファイル内の異なるフォントスタイルと行折り返しのために、比較されたページの単純なイメージ比較がうまくいかない。 ほとんどのOCRアプリケーションは、認識にレンダリングされたページイメージを使用します。 PDFファイルに画像がない場合でも、認識結果が正しくない可能性があります。

i-netソフトウェアはこの一般的な問題を認識しており、OCRモジュールは現在開発中です。 PDFファイル内の画像のみに認識を適用するオプションが用意されています。

+0

ocrコンテンツのための別のツールを識別するプロセスが進行中です.. i-net pdfcはこの未来を提供し​​、pdfs比較のための完全なソリューションを提供します。今、私たちはさまざまなコンテンツ比較のために異なるツールを使う必要があります。 –

関連する問題