誰かが私にどのように私は再クロールのために行くURLの更新を識別することができますお知らせください?既にクロールされた古いコンテンツではなく、ページが再クロールされるときに、そのページの更新されたコンテンツのみをクロールしたい。ありがとうございます。 pragya ..Nutch-Hadoop:再クロールを行うURLの更新情報をクロールするにはどうすればよいですか?
0
A
答えて
1
コンテンツがサーバー側で変更されている場合のみ、URLを再クロールすることをお勧めします。あなたはナッチにそれを特定させ、それによってコンテンツを取り込むかどうかを賢明に決めることを望みます。
Nutchは、ページの「最終更新日時」を維持するこの概念を持ち、そのページを再クロールしている間は使用されません。 They knewそれはディスクスペースと帯域幅を節約するだろうが、それは他のimpのもののためにintrestを捕まえなかった。 People had raisedこの問題はまだありませんが、nutch開発チームの活動は見られません。 Efforts were taken改善するために、私はまだ正確に現在のバージョンが "最後に変更された"フィールドを使用しているかどうかはわかりません。
1
あなたは、ページの更新されたコンテンツのみを取得し、残りの変更されていないデータを忘れることはできません。それは毎回完全な内容を得るでしょう。ページが更新された後に再クロールされるように、再クロール頻度をスマートに設定することができます。
関連する問題
- 1. どのように実行するか$ ./nutchはクロール/クロールURLを挿入する
- 2. クロールのための治療にURLを指定するにはどうすればよいですか?
- 3. オンラインストアをクロール中に動的URLを処理するにはどうすればよいですか?
- 4. この再帰的クロール機能を反復的にするにはどうすればよいですか?
- 5. Nutch 1.3でさまざまなスケジュールされたクロールの異なるサイトを再クロールするにはどうすればよいですか?
- 6. ボットがAJAXベースのURLをクロールするのを止めるにはどうすればいいですか?
- 7. nutch 1.3のURLを再クロールする
- 8. どのように治療のURLのURLをクロールするには?
- 9. 一部のURLがクロールされないようにします
- 10. rでメールデータをクロールする際のエラーを解決するにはどうすればよいですか?
- 11. Googleはどのように動的ページをクロールしますか?
- 12. 内部リンクにJSを使用してページをクロールするにはどうすればよいですか?再帰的に行う必要があります
- 13. バックグラウンドスレッドの情報でWPFウィンドウを更新するにはどうすればよいですか?
- 14. チェックアウト時にユーザー課金情報の更新を防止するにはどうすればよいですか?
- 15. クロール時にウェブページアドレスからモバイルページアドレスを取得するにはどうすればよいですか?
- 16. scrapyを使用して複数のページをクロールするにはどうすればよいですか?
- 17. 無限のスクロールでウェブページを正しくクロールするにはどうすればよいですか?
- 18. AJAXを使用してGoogleでクロール可能性をテストするにはどうすればよいですか?
- 19. このコードを個別にクロールするにはどうすればよいですか?
- 20. 動的ページのクロールを有効にするにはどうすればよいですか?
- 21. 番号をハードコーディングせずにクロールを自動化するにはどうすればよいですか?
- 22. メーリングリストの人の購読を禁止するようなURLをクロールするのを避けるにはどうすればいいですか?
- 23. Eclipse Marketplaceの資格情報を更新するにはどうすればよいですか?
- 24. SSL証明書のドメイン情報を更新するにはどうすればよいですか?
- 25. 多くのニュース記事をクロールするにはどうすればよいですか?
- 26. Mixnodeクローラーのクロールを遅くするにはどうすればよいですか?
- 27. クロール(スクレイピング、ストリーミング)の結果を保存するにはどうすればよいですか?
- 28. screamingfrogを使用してイントラネットをクロールするにはどうすればよいですか?
- 29. スクラップを使用してウェブサイトをクロールするにはどうすればよいですか?
- 30. Pythonプロジェクト内でScrapyクロールを取得するにはどうすればよいですか?