私は多くのサイトを持っています。毎月いくつかの変更の内容と何らかの変更内容が毎日更新されます。 Nutch 1.3はそれらをクロールしました。私は別の予定されたクロールでそれらを再クロールしたいです。 どうすればいいですか?ありがとう。 Nutch 1.3でさまざまなスケジュールされたクロールの異なるサイトを再クロールするにはどうすればよいですか?
0
A
答えて
2
クローラの実行に使用するコマンド名を指定できるシェルスクリプトを作成し、linuxのcronコマンドを使用してこのスクリプトの実行をスケジュールすることができます。
http://www.thegeekstuff.com/2011/07/cron-every-5-minutes/
Googleでさえ、時間のいくつかの間隔の後、繰り返しウェブ全体をクロールします。
1
あなたはこのようなあなたのシードファイル内の各エントリの間隔(二つの連続クロールの間の時間)をフェッチ指定することができます。あなただけの起動間隔を設定AdaptiveFetchSchedule
上記のエントリを使用して、それぞれの再クロールの後にしている場合
http://daily.com \t nutch.fetchInterval=86400
http://montly.com \t nutch.fetchInterval=2592000
ページが変更されたかどうかに応じて、この間隔が増減されます。この場合、常に一定の間隔が必要な場合は、上記の行にnutch.fetchInterval
の代わりにnutch.fetchInterval.fixed
を使用できます。
関連する問題
- 1. nutch 1.3のURLを再クロールする
- 2. Nutch 2.3.1でウェブサイトをクロールすると、製品リンクはスキップされますが、他のリンクはクロールされます
- 3. どのように実行するか$ ./nutchはクロール/クロールURLを挿入する
- 4. Nutch-Hadoop:再クロールを行うURLの更新情報をクロールするにはどうすればよいですか?
- 5. Nutchは特定のサイトをクロールできませんでした
- 6. 一部のURLがクロールされないようにします
- 7. Apache Nutchはrabbitmqにクロールされたドキュメントを書いています
- 8. さまざまなタスクに異なるスレッドを使用するにはどうすればよいですか?
- 9. javascriptでレンダリングされたナビゲーションバーがクロールされないのはなぜですか?
- 10. Apache Nutch再起動クロール
- 11. Nutchがseed.txtで指定されたURL以外のURLをクロールしない
- 12. ManifoldCFまたはnutchを使用してSAML認証を持つWebサイトをクロールするにはどうすればよいですか?
- 13. 外部リンクがNutchでクロールされたベースURLへのパスをトレースします
- 14. Scrapyがクロール/解析されないのはなぜですか?
- 15. セキュリティで保護されたWebサイトをクロールするときにブラウザのように動作しないwebdriver
- 16. Nutchクローラーが「ように」クロールしています
- 17. サイトの列がクロールされたプロパティに表示されない - Sharepoint 2010
- 18. Nutchで深くクロールする方法
- 19. Nutchがページコンテンツをクロールしない
- 20. Apache Nutchでクロール中のエラー
- 21. Nutchを使用してクロールされたページの後処理
- 22. この再帰的クロール機能を反復的にするにはどうすればよいですか?
- 23. さまざまなCSSアニメーションを次々に再生するにはどうすればいいですか?
- 24. xxx.herokuapp.comにデプロイされたアプリはGoogleによってクロールされますか?
- 25. Googleはいつサイトを再クロールしますか?
- 26. Nutchを使用して指定されたURLリストをクロールする
- 27. コンテンツがクロールされないようにするための最良の手段は何ですか?
- 28. Delphiでは、通貨データタイプをさまざまな通貨でさまざまな形式で表示するにはどうすればよいですか?
- 29. クロールされたコンテンツに区切り文字を追加する
- 30. iOSアプリをさまざまな言語のFlashでローカライズするにはどうすればよいですか?