Nutchを使用してWebページをクロールして索引付けできますが、索引を読み取ってそこからデータを抽出する方法はわかりません。Nutchのインデックスからコンテンツを読み取る方法は?
誰でも私にインデックスを読むためのいくつかの便利なツールを紹介できますか?
中国語ランゲージアナライザとIndexFilter
プラグインを追加したいので、私のプラグインを検証するためにインデックスを読みたいと思います。また、Javaを使用してクロールしたデータでいくつかの処理を行いたいと思います。
Nutchを使用してWebページをクロールして索引付けできますが、索引を読み取ってそこからデータを抽出する方法はわかりません。Nutchのインデックスからコンテンツを読み取る方法は?
誰でも私にインデックスを読むためのいくつかの便利なツールを紹介できますか?
中国語ランゲージアナライザとIndexFilter
プラグインを追加したいので、私のプラグインを検証するためにインデックスを読みたいと思います。また、Javaを使用してクロールしたデータでいくつかの処理を行いたいと思います。
luke toolを使用してヌッチインデックスを参照してください。ダンプインデックスオプションは、インデックス全体のxmlファイルを作成できます。あなたがコードを介してそれを行う必要がある場合、あなたはluceneを学ぶ必要があります。
クロールされたコンテンツを読むには、nutch segment readerを使用します。
こんにちはJohnさん、あなたと連絡して非常にうれしいです。プロフィールページであなたのメールアドレスを見つけることができません。(実際は、私はここで新しいです)。私にメールしてください([email protected])。私はあなたの電子メールを楽しみにしています。
が最適です。 – Freedom