2012-04-23 13 views
4

Nutchを使用してWebページをクロールして索引付けできますが、索引を読み取ってそこからデータを抽出する方法はわかりません。Nutchのインデックスからコンテンツを読み取る方法は?

誰でも私にインデックスを読むためのいくつかの便利なツールを紹介できますか?

中国語ランゲージアナライザIndexFilterプラグインを追加したいので、私のプラグインを検証するためにインデックスを読みたいと思います。また、Javaを使用してクロールしたデータでいくつかの処理を行いたいと思います。

答えて

0

luke toolを使用してヌッチインデックスを参照してください。ダンプインデックスオプションは、インデックス全体のxmlファイルを作成できます。あなたがコードを介してそれを行う必要がある場合、あなたはluceneを学ぶ必要があります。

クロールされたコンテンツを読むには、nutch segment readerを使用します。

0

あなたが提供するコンテンツを読むために

bin/nutch readseg xxx 

のようにコマンドを読むことができます。

希望thisがお手伝いします。

+0

こんにちはJohnさん、あなたと連絡して非常にうれしいです。プロフィールページであなたのメールアドレスを見つけることができません。(実際は、私はここで新しいです)。私にメールしてください([email protected])。私はあなたの電子メールを楽しみにしています。
が最適です。 – Freedom

関連する問題