2016-12-30 10 views
1

関連するQuestion on Stackoverflowが存在しますが、6年半前に尋ねられました。それ以来、特にNutchでは多くのことが変わってきました。基本的に私は2つの質問があります。Nutch v Solr v Nutch + Solr

  1. NutchとSolrを比較するにはどうすればよいですか?

  2. 私たちにはどのような状況がありますか、これらを統合してクロールに使用する方がよい理由は何ですか?スタンドアローンモード(またはハープープ)でそれらのいずれかを使用するのとどのように違うのでしょうか? Nutchのは(私が間に複雑なものをたくさん飛ばしてる、ウェブをクロール、Webページを訪問したコンテンツを抽出し、より多くのリンクを見つけて、プロセスを繰り返すという意味のための唯一の責任があり、現在の段階では

答えて

2

、希望どおりにあなたはそのアイデアを得ます)。

クロールプロセスの最終段階は、データをバックエンドに格納することです(ES/Solrは、1.xブランチでサポートされているデータストレージです)。ですから、このステップでは、Nutchが作業を完了した後で、Solrが演奏する場所に来ています。これは、その上にクエリを実行できるようにデータをどこかに格納する必要があります。

しばらく前Nutchには逆インデックスを書く機能が含まれていましたが(質問で説明したように)、Solr/ES(または他のストレージ)を使用することを推奨していますインデクサプラグインを書くことができます)。現在、インデックスプラグインはプラグイン可能で、必要なデータストレージ用のプラグインを作成できます。

要約:Nutchはクローラであり、SolrはNutchがクロールされるデータを保存する検索エンジンです。

+0

良い説明。もう一つの疑問は、Solrはハープープとナッチベースのクロールシステムのどこにあるのでしょうか? –

+1

Solrは通常hadoopの外にデプロイされ、NutchはHadoopクラスタの上で実行されます(分散クロール設定時)。 SolrをHDFS上で実行することはできますが(https://cwiki.apache.org/confluence/display/solr/Running+Solr+on+HDFS) –

+0

良いです。あなたの親切な返答をありがとう。私は答えを受け入れています。 –

0
  1. NutchとSolrは2つの異なるものです。 NutchはWebをクロールしてWebページの内容を解析しますが、SolrはNutchと統合されているときにNutchによってクロールされたコンテンツを索引付け、つまり格納する役割を担います。

  2. Webをクロール中にデータを取得して保存する必要がある場合は、SolrをNutchと統合する必要があります。あなたが何かを格納したり索引を付ける必要がなければ、Solrは必要ありません。 Solrは、Nutchがクロールしたデータを保存してからデータを検索する場合に便利です。

関連する問題