2011-10-19 15 views
0

私は多くのサイトを持っています。毎月いくつかの変更の内容と何らかの変更内容が毎日更新されます。 Nutch 1.3はそれらをクロールしました。私は別の予定されたクロールでそれらを再クロールしたいです。 どうすればいいですか?ありがとう。 Nutch 1.3でさまざまなスケジュールされたクロールの異なるサイトを再クロールするにはどうすればよいですか?

答えて

2

クローラの実行に使用するコマンド名を指定できるシェルスクリプトを作成し、linuxのcronコマンドを使用してこのスクリプトの実行をスケジュールすることができます。

http://www.thegeekstuff.com/2011/07/cron-every-5-minutes/

Googleでさえ、時間のいくつかの間隔の後、繰り返しウェブ全体をクロールします。

1

あなたはこのようなあなたのシードファイル内の各エントリの間隔(二つの連続クロールの間の時間)をフェッチ指定することができます。あなただけの起動間隔を設定AdaptiveFetchSchedule上記のエントリを使用して、それぞれの再クロールの後にしている場合

http://daily.com \t nutch.fetchInterval=86400 
http://montly.com \t nutch.fetchInterval=2592000 

ページが変更されたかどうかに応じて、この間隔が増減されます。この場合、常に一定の間隔が必要な場合は、上記の行にnutch.fetchIntervalの代わりにnutch.fetchInterval.fixedを使用できます。

関連する問題