2011-07-21 2 views
0

私はMHTML形式とpdf形式の文書をいくつか持っています。 MHTMLとPDFでコンテンツが同じかどうかを知りたいどのように私は違いを比較することができますか?異なる種類の2つのファイルの内容を比較するにはどうすればよいですか?

+0

以下を参照してください。http://stackoverflow.com/questions/968935/c-binary-file-compare looks looks –

+0

内容を比較したいですか?かなり複雑なパーサーがなければ、これは不可能です。 –

+0

コンテンツが同じかどうかを確認するには、MHTMLファイルとPDFファイルを比較したいとお考えですか?または、2つのMHTMLファイルまたは2つのPDFファイルを比較したいですか? –

答えて

3

MHTMLパーサーとPDFパーサライブラリが必要です。次に、両方の文書を平行に横断して内容を比較します。異なるファイル形式の要素間のマッピングシステムを構築しなければならないため、これは間違いありません。

コンテンツはさまざまな方法(表とタブなど)で記述でき、ユーザーとまったく同じように見えることを考慮する必要がある場合は、非常に複雑になります。

あなたの質問をしている途中で、私の直感は、このプロジェクトはあなたが準備しているよりも大きく、複雑です。

+0

彼はテキストを解析し、スペース\ newlines \ tabsを無視することができます - 例えば、大文字と小文字を区別しないで、多少のエラー率を許容する - 500文字ごとに1文字と間違いがあり、それでも等しいとすることができます) –

+0

@Quantic Programming :これは簡単なテキスト文書では機能しますが、主なテキストフローの一部ではないテキストボックス(divやその他のHTMLのもの)があれば問題に遭遇します。 –

関連する問題