Storm Crawlerの再帰的クロールの優先順位付け

ワールドワイドウェブをクロールすると、クローラにURLの初期のシードリストを与えたいと思っています。Storm Crawlerの再帰的クロールの優先順位付け

私はこのようなオプションをApach Nutchで見ています（のtopNパラメータを参照）。そのようなオプションはStorm Crawlerにもありますか？

2016-10-13 Tushar Goswami

StormCrawlerは再帰的クロールを処理でき、URLの優先順位付けの方法はURLの格納に使用するバックエンドによって異なります。

たとえば、短いチュートリアルのREADMEとsample config fileを参照してください。デフォルトでは、スパウトはnextFetchDate（**。sort.field *）に基づいてURLをソートします。

Nutchでは、-topN引数は、次のセグメントに入れるURLの最大数を指定します（スコアリングプラグインが使用するスコアによって異なります）。 StormCrawlerではバッチ処理されないので同等のものは必要ありません。クロールは連続して実行されます。

出典

2016-10-13 11:19:47

'nextFetchDate'の代わりに' inboundLinkCount 'や' linkscore 'のようなものを追加できますか？基本的に 'ウェブページがインターネット上でどの程度重要であるか'を示すいくつかのインジケータ –

ステータスインデックスにインデックスされたフィールドを使用できます。このフィールドの値をどのように生成するかは、別の問題です。あなたは外部プロセスを持つことができます。 Sparkに基づいてPageRankの値を計算し、それを状態インデックスに送ります。現在StormCrawlerにはNutchのOPICに相当するものはありませんが、カスタムStatusUpdaterBolt（またはステータスストリームを使って新しいボルト）を書くことで 'inboundLinkCount'を実装することはあまり難しくありません。アウトリンクに基づくESインデックス（ステータス値がDISCOVEREDのタプル） –

Storm Crawlerの再帰的クロールの優先順位付け

答えて

関連する問題