Nutch-Hadoop：再クロールを行うURLの更新情報をクロールするにはどうすればよいですか？

誰かが私にどのように私は再クロールのために行くURLの更新を識別することができますお知らせください？既にクロールされた古いコンテンツではなく、ページが再クロールされるときに、そのページの更新されたコンテンツのみをクロールしたい。ありがとうございます。 pragya ..Nutch-Hadoop：再クロールを行うURLの更新情報をクロールするにはどうすればよいですか？

出典

2012-04-20 Pragya

コンテンツがサーバー側で変更されている場合のみ、URLを再クロールすることをお勧めします。あなたはナッチにそれを特定させ、それによってコンテンツを取り込むかどうかを賢明に決めることを望みます。

Nutchは、ページの「最終更新日時」を維持するこの概念を持ち、そのページを再クロールしている間は使用されません。 They knewそれはディスクスペースと帯域幅を節約するだろうが、それは他のimpのもののためにintrestを捕まえなかった。 People had raisedこの問題はまだありませんが、nutch開発チームの活動は見られません。 Efforts were taken改善するために、私はまだ正確に現在のバージョンが "最後に変更された"フィールドを使用しているかどうかはわかりません。

出典

2012-04-20 14:42:02

あなたは、ページの更新されたコンテンツのみを取得し、残りの変更されていないデータを忘れることはできません。それは毎回完全な内容を得るでしょう。ページが更新された後に再クロールされるように、再クロール頻度をスマートに設定することができます。

出典

2012-04-21 18:38:31 user1348655

Nutch-Hadoop：再クロールを行うURLの更新情報をクロールするにはどうすればよいですか？

答えて

関連する問題