私がリストアップした各URLまたはURLのグループごとに異なるフェッチ間隔を使用することはできますか?Nutchで異なるフェッチ間隔を持つことは可能ですか?
もしそうでなければ、いつでもURLを取得するためのコマンドがありますか?(これは私がcronジョブやデーモンを使う方法です)?
私がリストアップした各URLまたはURLのグループごとに異なるフェッチ間隔を使用することはできますか?Nutchで異なるフェッチ間隔を持つことは可能ですか?
もしそうでなければ、いつでもURLを取得するためのコマンドがありますか?(これは私がcronジョブやデーモンを使う方法です)?
(シードファイルに定義されている)シードURLに対してフェッチ間隔が設定されている場合、シードリンクのフェッチ方法を制御できるように、注入ステップのメタデータ部分(https://github.com/apache/nutch/blob/master/src/java/org/apache/nutch/crawl/Injector.java#L69-L72)を使用できます。しかし発見されたリンクは独自のスケジューリングを持っていますが、シードファイルのアウトリンクにnutch.fetchInterval
またはnutch.fetchInterval.fixed
を伝えるものを書くことができるので、同じホスト上のすべてのリンクが同じフェッチ間隔(または独自のアルゴリズム)になります。
これは、カスタム論理を実装する独自のカスタムフェッチスケジュール(Nutch:mimetype/default/adaptativeにバンドルされているものに似ています)を書くこともできます。