質問は奇妙なようですが、画像としてのテキストと画像を画像として比較すると、かなり興味深い出力を目にしているので、これを尋ねる必要があります。画像と画像としてのテキストの差異画像
理想的には、2つのpdfsを比較するためのツールやアルゴリズムを特定するプロセスで、それらの違いを強調する出力を生成します。
pdfsには画像形式のテキスト(論文の従来のテキストはpdfsに変換されます)があります。
私たちはこれらのレガシーpdfsの移行を行っており、最後にレガシー変換pdf出力と比較しています。
私はAdobe dc pro、i-net pdfc、power pdfなどの2つのpdfを比較するためのツールをいくつか評価しています。
評価中、私はグラフィック画像がpdfsの両面で比較されている(どちらも正確ではない)ことがわかりました。画像と同じようにテキストが完全に無視される場合、すべてのツールで全面的に同じ結果になります。
しかし私は、従来のテキストpdfの多くを扱っているので、イメージとしてのテキストにもっと興味があります。
以下、グラフィックイメージの比較結果を添付して、イメージ間の違いをキャプチャすることができます。
しかし、私はテキスト画像を比較すると、違いは、ツールで強調表示されていません。私は画像、グラフィックス、およびツールは、完全な比較を無視しているようテキストが比較されていない、このことから理解何
。私の仮定が正しいかどうかを明確にしたいと思います。
第2に、pdfsのテキストイメージを比較して差異を生成する方法を知りたいと思いますか?私は、私は同様にあなたの最初の質問にお答えしますアイネットPDFCの著者である会社のために働いている
あなたが使用しているツールの作者のみがあなたの最初の質問に答えることができます。 2番目の質問はOCRによって答えられます...あなたはテキストを(典型的なプロパティによって)OCRで両方の画像で比較し、文字列を比較したり、書式を比較したりする必要があります。 – Spektre