かなり簡単に動作する非常に簡単なクロールエンジンをまとめました。ほとんどの場合、循環ループトラップに巻き込まれません。 (つまり、ページAへのページBとページBへのリンクはページAへのリンクです)。ページをクロールするときにCacheBusterクエリーストリングを検出する
このループでスタックされた唯一の時間は、両方のページがキャッシュバーストクエリー文字列で相互にリンクしている場合です。基本的に、リフレッシュごとにリンクごとに一意のクエリ文字列です。
これにより、ページは常にクローラの新しいページのように見え、クローラは2つのページの間で動かなくなります。
2つのページの間にN回のバウンスが発生した後で、クエリーストリング(これは私が非常に良いアプローチではないと思う)との違いがあるだけでなく、これらを検出してトラップ...?