Nutch 2.xのスコアに基づいてではなく、フェッチされていないURLのみを生成する方法はありますか?あなたはdb_unfetched
ステータスを持つURLのみことを確保しているこのコマンドでNutch 2.3の代わりにフェッチされたURLのみを生成する012
$ bin/nutch generate -expr "status == db_unfetched"
:
Nutch 2.xのスコアに基づいてではなく、フェッチされていないURLのみを生成する方法はありますか?あなたはdb_unfetched
ステータスを持つURLのみことを確保しているこのコマンドでNutch 2.3の代わりにフェッチされたURLのみを生成する012
$ bin/nutch generate -expr "status == db_unfetched"
:
まあ、Nutchの1.xのためにあなたはNutchの1.12(と思う)ので、同梱されていJEXLサポートを使用することができますクロールするセグメントを生成するために考慮されます。
この機能はまだ2.xブランチでは使用できませんが、カスタムGeneratorJobを作成するとこのトリックを実行できます。
一方、ジェネレータジョブはすでにフェッチするURLのリストをソートするスコアを考慮しているため、おそらく簡単な方法でカスタムScoringFilterを書くことができます。
たとえば、https://github.com/apache/nutch/blob/2.x/src/java/org/apache/nutch/scoring/ScoringFilter.java#L69-L81を参照すると、ScoringFilterはジェネレータジョブのスコアリング値を生成するためにのみgeneratorSortValue
メソッドを提供しています。したがって、これらのURLを拡張できない状態で追加することができます。
ありがとうございます!私は、 'plugin.includes'からすべての得点フィルタを削除することによっても可能だと思いますか? –
しかし、そのような場合は、ステータスの区別なしに1.0のスコアを持つすべてのURLを持つことになると思いますので、おそらくジェネレータが未取得のものを集めるかもしれませんが(このドキュメントでは、 )ので、動作することができます。 2.xが同じであるかどうかはわかりません。 –