nutch

    19

    5答えて

    私は限られた数のWebサイトを索引付けする専用の検索エンジンWebサイトを構築しようとしています。私が思いついた解決策は以下のとおりです。ウェブクローラとしてのNutchを使用して 、検索エンジンとしてのSolrを使用して 、 フロントエンドおよびサイトのロジックは、自動改札で符号化されます。 問題はNutchがかなり複雑で、詳細なドキュメント(書籍、最近のチュートリアルなど)が存在しないにもかか

    0

    1答えて

    私はhttp://sujitpal.blogspot.com/2009/07/nutch-custom-plugin-to-parse-and-add.htmlに基づいてNutchのプラグインを作成しようとすると、カスタムタイトルの検索ができません。 これはうまく動作し、抽出されたタイトルを新しいフィールドに保存することは問題ありません。しかし、私はそれをデフォルトのタイトルの代わりにSolrで使

    0

    3答えて

    Fieldが 'A'または 'B'の検索結果を検索しますか? デフォルトはANDと思われます。

    4

    2答えて

    HTTPに基づいていない 、 http://localhost:81よう というように、 ず、直接ローカルファイルシステム上の特定のディレクトリをクロール、 が出てどのような方法はありますか?

    1

    1答えて

    私はクラスタにnutch 1.0を設定しました。これはセットアップされ、正常にクロールされました.dfs -copyToLocalを使用してクロールディレクトリをコピーし、tomcatディレクトリにあるnutch-site.xmlファイルのsearcher.dirの値をそのディレクトリを指すように設定しました。それでも私が検索しようとすると、私は0の結果を受け取ります。 ご協力いただければ幸いです

    0

    2答えて

    。 しかし、最近、私は、数値以外の文字列のインデックスに「Field.Store.NO、Field.Index.UN_TOKENIZED」に変更しました: Field stateField = new Field("state","irn_" + state, Field.Store.NO, Field.Index.UN_TOKENIZED); と「状態:irn_CA」のようなクエリがフェッチ

    1

    2答えて

    私は1年ほどNutchを見ておらず、かなり変化しているように見えます。再クロールに関するドキュメントは明確ではありません。既存のNutchインデックスを更新する最良の方法は何ですか?

    -1

    2答えて

    実際には私は初心者にnutchです。私はkhnowしたいのですが、rssフィードをクロールして解析データをカスタマイズして、インデックスがrssと異なるフィールドになるようにしてください。 のように rssフィードがアイテムのフィールドソースを持っているとします。私はあなたが多くのnutch experts here

    2

    1答えて

    私はNutchを使用してサイトを索引付けしましたが、今ではZend Luceneライブラリを使用して索引を検索しています。 私は実際にZendライブラリをCodeigniterに引き出しましたが、すべてZendがその作業を行っています。 タイトル、スコア、およびURLを表示できますが、ページのコンテンツを表示するフィールドの名前が見つかりません。 は、これまでのところ、私は次のコード $index