nutch

19熱

5答えて

私は限られた数のWebサイトを索引付けする専用の検索エンジンWebサイトを構築しようとしています。私が思いついた解決策は以下のとおりです。ウェブクローラとしてのNutchを使用して、検索エンジンとしてのSolrを使用して、フロントエンドおよびサイトのロジックは、自動改札で符号化されます。問題はNutchがかなり複雑で、詳細なドキュメント（書籍、最近のチュートリアルなど）が存在しないにもかか

0熱

1答えて

デフォルトのタイトルを上書きするプラグインが必要

私はhttp://sujitpal.blogspot.com/2009/07/nutch-custom-plugin-to-parse-and-add.htmlに基づいてNutchのプラグインを作成しようとすると、カスタムタイトルの検索ができません。これはうまく動作し、抽出されたタイトルを新しいフィールドに保存することは問題ありません。しかし、私はそれをデフォルトのタイトルの代わりにSolrで使

0熱

3答えて

NutchでOR検索を行うには？

Fieldが 'A'または 'B'の検索結果を検索しますか？デフォルトはANDと思われます。

4熱

2答えて

Nutchのクロールファイルシステムの作成方法は？

HTTPに基づいていない、 http://localhost:81ようというように、ず、直接ローカルファイルシステム上の特定のディレクトリをクロール、が出てどのような方法はありますか？

1熱

1答えて

Nutch検索は常に0の結果を返します

私はクラスタにnutch 1.0を設定しました。これはセットアップされ、正常にクロールされました.dfs -copyToLocalを使用してクロールディレクトリをコピーし、tomcatディレクトリにあるnutch-site.xmlファイルのsearcher.dirの値をそのディレクトリを指すように設定しました。それでも私が検索しようとすると、私は0の結果を受け取ります。ご協力いただければ幸いです

0熱

2答えて

Nutchの分野の問題

。しかし、最近、私は、数値以外の文字列のインデックスに「Field.Store.NO、Field.Index.UN_TOKENIZED」に変更しました： Field stateField = new Field("state","irn_" + state, Field.Store.NO, Field.Index.UN_TOKENIZED); と「状態：irn_CA」のようなクエリがフェッチ

1熱

2答えて

Nutchインデックスを更新する最良の方法は何ですか？

私は1年ほどNutchを見ておらず、かなり変化しているように見えます。再クロールに関するドキュメントは明確ではありません。既存のNutchインデックスを更新する最良の方法は何ですか？

-1熱

2答えて

RSSフィードNutch

実際には私は初心者にnutchです。私はkhnowしたいのですが、rssフィードをクロールして解析データをカスタマイズして、インデックスがrssと異なるフィールドになるようにしてください。のように rssフィードがアイテムのフィールドソースを持っているとします。私はあなたが多くのnutch experts here

2熱

1答えて

Zend Luceneコンテンツフィールド

私はNutchを使用してサイトを索引付けしましたが、今ではZend Luceneライブラリを使用して索引を検索しています。私は実際にZendライブラリをCodeigniterに引き出しましたが、すべてZendがその作業を行っています。タイトル、スコア、およびURLを表示できますが、ページのコンテンツを表示するフィールドの名前が見つかりません。は、これまでのところ、私は次のコード $index