私は、変更のWebサイトをどのように監視し、その背後で使用されている概念が何であるかを理解しようとしています。 ウェブサイト全体をクロールし、クロールされたウェブページをデータベースの1つの店舗と比較し、ウェブページが更新されている場合は古いページをHTMLに上書きするか、存在しない場合はデータベースに保存するクローラを作成すると思います。 私の質問はここにあります: 1- 2つのWebページが同じ場合はどう比較できますか?私は文字でWebページの文字の同等の文字列を比較する必要がありますか? 2ウェブサイト全体をクロールする必要がありますか?ウェブサイトのHTMLページのサイズが5Gバイトで、時間ごとにウェブサイトの変更を検出したいと考えて、毎時5Gbのデータをクロールしてダウンロードすると、多くの帯域幅を消費することになります。ウェブサイトの監視はどのように機能しますか?
私はコードを書くことができます、私はちょうどウェブサイトを監視するために使用される一般的な習慣を知りたいです。
ありがとう。
変更を確定するためにLast-Modificationヘッダーを使用していると思います。また、クロール要求がある場合は、クロール要求が再度クロールされます。 –