1
ワールドワイドウェブをクロールすると、クローラにURLの初期のシードリストを与えたいと思っています。Storm Crawlerの再帰的クロールの優先順位付け
私はこのようなオプションをApach Nutchで見ています(のtopNパラメータを参照)。そのようなオプションはStorm Crawlerにもありますか?
ワールドワイドウェブをクロールすると、クローラにURLの初期のシードリストを与えたいと思っています。Storm Crawlerの再帰的クロールの優先順位付け
私はこのようなオプションをApach Nutchで見ています(のtopNパラメータを参照)。そのようなオプションはStorm Crawlerにもありますか?
StormCrawlerは再帰的クロールを処理でき、URLの優先順位付けの方法はURLの格納に使用するバックエンドによって異なります。
たとえば、短いチュートリアルのREADMEとsample config fileを参照してください。デフォルトでは、スパウトはnextFetchDate(**。sort.field *)に基づいてURLをソートします。
Nutchでは、-topN引数は、次のセグメントに入れるURLの最大数を指定します(スコアリングプラグインが使用するスコアによって異なります)。 StormCrawlerではバッチ処理されないので同等のものは必要ありません。クロールは連続して実行されます。
'nextFetchDate'の代わりに' inboundLinkCount 'や' linkscore 'のようなものを追加できますか?基本的に 'ウェブページがインターネット上でどの程度重要であるか'を示すいくつかのインジケータ –
ステータスインデックスにインデックスされたフィールドを使用できます。このフィールドの値をどのように生成するかは、別の問題です。あなたは外部プロセスを持つことができます。 Sparkに基づいてPageRankの値を計算し、それを状態インデックスに送ります。現在StormCrawlerにはNutchのOPICに相当するものはありませんが、カスタムStatusUpdaterBolt(またはステータスストリームを使って新しいボルト)を書くことで 'inboundLinkCount'を実装することはあまり難しくありません。アウトリンクに基づくESインデックス(ステータス値がDISCOVEREDのタプル) –