関連するQuestion on Stackoverflowが存在しますが、6年半前に尋ねられました。それ以来、特にNutchでは多くのことが変わってきました。基本的に私は2つの質問があります。Nutch v Solr v Nutch + Solr
NutchとSolrを比較するにはどうすればよいですか?
私たちにはどのような状況がありますか、これらを統合してクロールに使用する方がよい理由は何ですか?スタンドアローンモード(またはハープープ)でそれらのいずれかを使用するのとどのように違うのでしょうか? Nutchのは(私が間に複雑なものをたくさん飛ばしてる、ウェブをクロール、Webページを訪問したコンテンツを抽出し、より多くのリンクを見つけて、プロセスを繰り返すという意味のための唯一の責任があり、現在の段階では
良い説明。もう一つの疑問は、Solrはハープープとナッチベースのクロールシステムのどこにあるのでしょうか? –
Solrは通常hadoopの外にデプロイされ、NutchはHadoopクラスタの上で実行されます(分散クロール設定時)。 SolrをHDFS上で実行することはできますが(https://cwiki.apache.org/confluence/display/solr/Running+Solr+on+HDFS) –
良いです。あなたの親切な返答をありがとう。私は答えを受け入れています。 –