ウェブリクエストを介してウェブクローラにアクセスできるという利点がありますか?そうでない場合は、Webコンテナに入れる理由はありません。
...しかし、私は常に私は、最新のコンテンツを持っていることを確認するために、これらのサイト(24時間)を巡回することにしたいです。
あなたには、これを行うためのサイト所有者の同意/許可が必要です。そうしないと、技術的または法的措置を取る可能性が高くなります。
Danny Thomasによれば、クローラはに「robots.txt」ハンドラを実装し、クロール時にこれらのファイルの内容を尊重する必要があります。
私はので、私は訪問必要なサイトの数の少なくとも別の10〜15時間、再び同じページを訪れないかもしれない
フォロー。それはまだ一般的にはあまりにも多くのクロールと考えられていますか?
これは正しい質問ではありません。適切な質問は、特定のサイト所有者がそれをあまりにも多くクロールすると考えるかどうかということです。
どのくらいの費用がかかりますか?クロールによる負荷に対処するために余分な作業が必要ですか?容量を追加する必要がありますか?ランニングコストが増加しますか? (ネットワーク料金、電力?)
収入を減らす可能性のあるコンテンツを使っていますか。例えばサイトの実際のヒット数、広告のクリックスルー数を減らす
クロールからどのようなメリットがありますか?
あなたは公共財のために何をしていますか? (またはそれはあなたが彼らのコンテンツのうち、バックを作るためだけの方法です?)
実際にそれらを尋ねるにある知るための唯一の方法。
もし私がWebクローラで実行していないのであれば、それをシェルのcronジョブとしてスケジューリングするのには不十分です。 – Nefsu