2010-12-05 7 views
4

まず、この質問のための適切な場所であるかどうかわかりません。そうでない場合は申し訳ありません:)特定のコンテンツを見つけるためにスパイダー(webcrawler)を実行する

ウェブを特定の埋め込みファイルを見つけるためにクモを書くことを考えています。

しかし、私は、ISPがスパイダーを動かすことが許可されているかどうかは、速いペースで多くの要求をするだろうと思っていました。

リクエストを遅らせる必要がありますか?

私のISPの契約書を読みましたが、クロールに関する具体的な情報は見つかりませんでした。

答えて

2

wgetをご覧ください。役に立つアイデアがあります。クロールするサイトのROBOTS.txtに注意する必要があります。また、サービス拒否条件を作成しないように、リクエスト間に遅延を残す必要があります。

+0

オフラインで使用するためにファイルをダウンロードするかどうかを調べます。私はちょうどそれをダウンロードするのではなく、それをインデックス化したいです。私の発見は正しいのですか? – PeeHaa

+0

@PeeHaaあなたは「特定の埋め込みファイル」が何であるかは言わない。彼らが*コンテンツ*によって識別されている場合は、それらをダウンロードする必要があります(私はあなたがサーバー上でコードを実行することはできません)。必ずしもファイル全体をダウンロードする必要はありません。サーバーの構成方法によって異なります。 REST/HTTPはパーツのダウンロードを許可します –

+0

彼らは何であっても問題はありません。 – PeeHaa

1

あなたのクロールを禁止することはできません。通常のユーザー操作とは異なります。たくさんの写真があるページを開くと、ブラウザは一度に多くのリクエストを行います。

転送制限があります。ダウンロードしたデータの量だけをメモしてください。

あなたが考慮する必要があることは、多くのページをクロールすることはDoS攻撃と見なされるか、ページオペレータによって禁止されることです。彼らのルールに従ってください。 1台のコンピュータから毎日N回以上の要求が行われないようにする必要がある場合は、それを尊重してください。サイトへのアクセスをブロックしないようにいくつかの遅延を行います。

関連する問題