私はGoDaddy共有LAMPサーバー上のPHPでスクリーンスクレイピングスクリプトをコマンドライン経由で実行しています。長時間実行中の画面スクラップスクリプトの実行
スクリプトは、必要な情報をスクラップして解析し、データベースに格納します。 1ページあたりのプロセス全体で約1.5秒かかり、10,000ページに近づく必要があります(ページごとに2つのCookieから1つのCookieを取得し、合計30kページ、つまりcurl
になります)。
スクリプト全体が実行に約5時間かかります。私はいくつかのメモリプロファイリングを行っており、メモリ消費量は実行中はほぼ一定に保たれます。増加しません。
スクリプトを一晩実行すると、GoDaddyは異常なことに気付くでしょうか? CPU消費量はそれほど多すぎるはずはありませんが、1.5時間あたり3ページを5時間フェッチした場合の帯域幅消費量はどのくらい悪くなりますか? GoDaddyの終わりに警報を発するには十分ですか?
はいの場合は、スクリプトを分割して1500ページを実行し、1時間停止してから再開できるとします。私はそれをすべきか?私は答えを投稿します未回答の質問を残していないの便宜上
試してみてください、ゴダディが教えてくれます。その後、具体的な(虚偽ではない)問題を解決する方法について後であなたの心を作り上げることができます。 – hakre
"スクリプトを一晩実行すると、GoDaddyは何か異常なことに気づくでしょうか?CPU消費量はそれほど多すぎるはずはありませんが、1.5秒間に3ページを5時間フェッチした場合の帯域幅消費量はどれくらいですか? GoDaddyの終わりに警報を発する? GoDaddyはあなたがそれを実行するのを待つ必要はありません。彼らはあなたがここでそれについて読むことによってそうするつもりであることを見ることができます。スクリーンスクレイピングは情報を収集するための非常に貧弱な方法です。30Kページに対して実行する場合は、サイトからAPIやデータソースを探す方が良いと思わないでしょうか? –
@theTinMan私は彼らがStackOverflow上のすべての質問を誰かが何か言及するかもしれないオフチャンスでスキャンするのではないかと疑います。また、「非倫理的」なのでスクリプトを停止することに心配していません。私はそれがアラームを発生させるリソースを消費するかもしれないと心配していました。とにかく、私は昨夜それを実行し、問題はなかったので、それはすべて良いです。 – xbonez