2017-05-16 4 views

答えて

1

まあ、Nutchの1.xのためにあなたはNutchの1.12(と思う)ので、同梱されていJEXLサポートを使用することができますクロールするセグメントを生成するために考慮されます。

この機能はまだ2.xブランチでは使用できませんが、カスタムGeneratorJobを作成するとこのトリックを実行できます。

一方、ジェネレータジョブはすでにフェッチするURLのリストをソートするスコアを考慮しているため、おそらく簡単な方法でカスタムScoringFilterを書くことができます。

たとえば、https://github.com/apache/nutch/blob/2.x/src/java/org/apache/nutch/scoring/ScoringFilter.java#L69-L81を参照すると、ScoringFilterはジェネレータジョブのスコアリング値を生成するためにのみgeneratorSortValueメソッドを提供しています。したがって、これらのURLを拡張できない状態で追加することができます。

+0

ありがとうございます!私は、 'plugin.includes'からすべての得点フィルタを削除することによっても可能だと思いますか? –

+0

しかし、そのような場合は、ステータスの区別なしに1.0のスコアを持つすべてのURLを持つことになると思いますので、おそらくジェネレータが未取得のものを集めるかもしれませんが(このドキュメントでは、 )ので、動作することができます。 2.xが同じであるかどうかはわかりません。 –

関連する問題