これはプログラミングの問題ではありません!ウェブページの比較 - simhash、DOMエッジノード処理
しかし、ウェブページを比較してページが同じか類似しているかどうかを調べています。
私はいくつかの基本的なsimhashの実装を見つけました。誰かが私に本当に良い堅牢なpy/php simhashを指すことができるかどうか疑問に思っていました。実装。私はむしろ、これについての車輪を再発明しないだろう。
また、特定のページのDOM構造を計算/生成し、ツリー/構造の「終了/エッジ」ノードを計算して、これがアプローチの可能性があるかどうかを判断することも可能ですページの類似性を判断する。
私はまた、特定のページのDOM構造のリストを生成するために使用できる任意のツール/アプリに興味があります。私はネット検索がテスト目的のためにこの種のグラフ/リストを生成するpy/php/appsの数をもたらしたと思ったでしょう。
私の検索で間違った用語を使用している可能性があります。
だから、どこに見えるかについての考えやコメント、考慮すべき点は大歓迎です。
おかげ
あなたはjavascriptからのdomへの変更、または最初に配信されたhtmlを気にしますか? –
私のテストのために、私はhtml /データを取得し、返されたhtmlドキュメントで作業しています。これは私が比較研究に興味を持っていることです。私は〜1000ページを比較するつもりです。このコーパス/ドメインから、プロセスはアルゴリズム的にユニークなページを決定しなければなりません。開発する予定のソリューションにはjscriptはありません。私はいずれかのPHP/Pythonになるsolnを探しています。ありがとう –
私は質問に答えてくれると思います:) DOMを抽出する前にブラウザのようにHTMLを扱う必要がないことを確認するだけです。 –