2016-12-06 9 views
0

私がリストアップした各URLまたはURLのグループごとに異なるフェッチ間隔を使用することはできますか?Nutchで異なるフェッチ間隔を持つことは可能ですか?

もしそうでなければ、いつでもURLを取得するためのコマンドがありますか?(これは私がcronジョブやデーモンを使う方法です)?

答えて

2

(シードファイルに定義されている)シードURLに対してフェッチ間隔が設定されている場合、シードリンクのフェッチ方法を制御できるように、注入ステップのメタデータ部分(https://github.com/apache/nutch/blob/master/src/java/org/apache/nutch/crawl/Injector.java#L69-L72)を使用できます。しかし発見されたリンクは独自のスケジューリングを持っていますが、シードファイルのアウトリンクにnutch.fetchIntervalまたはnutch.fetchInterval.fixedを伝えるものを書くことができるので、同じホスト上のすべてのリンクが同じフェッチ間隔(または独自のアルゴリズム)になります。

これは、カスタム論理を実装する独自のカスタムフェッチスケジュール(Nutch:mimetype/default/adaptativeにバンドルされているものに似ています)を書くこともできます。

関連する問題