単純なNutch 1.3/Solrのインデックスの説明

多くの検索の後、Nutch 1.3とSolrの使い方の簡単な説明はありません。単純なNutch 1.3/Solrのインデックスの説明

私は検索のためにウェブサイト上で使用する他のコンテンツと一緒にSolrインデックスを持っています。

Nutchの結果をインデックスに追加して、ウェブサイトの検索に外部サイトを追加したいとします。

これはすべてうまくいきます。

質問はどのようにインデックスを更新しますか？あなたはまずソルからナッチの結果をすべて削除しなければなりませんか？あるいは、Nutchはそれを世話しますか？ NutchはSolrインデックスから有効ではなくなった結果を削除しますか？

これらの質問に答えることは、ドキュメントや説明がないシェルスクリプトでは役に立ちませんでした。

2011-09-14 Karl

nutchスキーマは、一意のキーとしてid（= url）を定義しています。あなたがURLを再クロールすると、文書はソルバーインデックスに置き換えられます.nutchはデータをソルバーに投稿します。

2011-09-15 07:44:15 Umar

クロールされたWebサイトに登録されていないドキュメントはどのように整理されますか？ – Karl

これはデフォルトでは起こりません。これを達成するには、サイトのすべての結果をインデックスから削除し、次に更新クロールを実行する必要があります。リフレッシュクロールが完了するまで結果が得られるように、solrインデックスに新しいデータをサブミットする直前に削除を実行できます。 – Umar

これはナッチができることですか？私は索引から物を削除することについて何も見ていない。 – Karl

-1

Webcrawlerを組み込んだLucidworksのエンタープライズSolr for testing/prototypingをお試しください。

それはあなたの全体のLuceneスタックの感触を与えるでしょう。これまで使用してきた他のどのJavaソフトウェアよりも優れたインターフェースを備えています。それは使用するのが喜びです。

2011-09-15 17:02:03 mt3

Nutchではインクリメンタルクロールを実装する必要があります。これはアプリケーションによって異なります。 3カ月ごとに毎日再クロールしたい人もいるかもしれません。いずれの場合も最大値は90日です。

一般的な考え方は、再クロールの最大時間より古いクロールセグメントを削除することです。そのときには重複しているためです。また、Solrで使用するために新鮮なsolrindexを製造します。

私はスクリプト作成で自分自身で行う必要があることを恐れています。ある日、私はwikiにいくつかのスクリプトを書いても良いかもしれませんが、そのスクリプトはそのまま公開する準備ができていません。

2011-09-16 12:37:57 millebii

答えて