2012-04-20 13 views
0

私は最終年度プロジェクトの検索エンジンを構築しようとしています。私はこの2ヶ月間にこのトピックについて多くの研究を行ってきました。 そして、インターネット、パーサー、インデクサーをクロールするためにクローラが必要になることがわかりました。ubuntu 10.10でNutchとsolrを設定するには?

Nutchがクロールしたデータをインデックス化するために、Nutchをクローラとソルバーとして使用しようとしています。しかし、私は両方のインストール部分にはまっています。私はインターネット上のチュートリアルの助けを借りて私のシステムにNutchとsolrをインストールしようとしていますが、何も私のために働いていません。

Nutchとsolrをインストールして統合する方法を知るためのインストールガイドやリンクが必要です。

次は、パーサーがついています。私はこの段階については全く知らない。インデックス作成の前にデータの解析を行う方法については、ここで助けが必要です。

私はGoogleなどを構築したくありません。私が必要とするのは、特定のウェブサイトの特定のアイテムを検索することだけです。

私はJavaの経験があり、快適に作業することができますが、私はあなたのような専門家ではありません。正しい方向に進むかどうか、次に何をすべきか教えてください。

私はUbuntuの10.10を使用しています、と私は、Apache Tomcatの7

答えて

-1

ThisはNutchのインストールのためのものであり、thisはSolrのとの統合のためである持っています。

パーサーに関しては、nutchには独自のパーサーがあり、解析するのは面倒ではありません。クロールコマンドをトリガします。自動的に完了します。あなたがnutchによって提供されたものとは別のものを解析したいのでない限り、それはあなたにとって問題ではありません。もしあなたがnutchにいくつかの.xyzファイルを解析させたいなら、それに対してパーサープラグインを書いてnutchと統合することにします。

関連する問題