2012-01-13 6 views
1

私は多言語インデックスを構築する必要があるシナリオを持っています。特に2つのスクリプトの場合、これらの2つのスクリプトは完全に異なっています(ヒンディー語と英語)。そのステミングとレミナイザーは互いに影響しません。私のインデックスには膨大な数の文書が含まれています。 from follwing 3どのアプローチをインデックスに使用しますか? :Solrのインデックス方法

  1. 2つの言語の単一フィールド。 利点 - a)スクリプトが異なるので、両方のアナライザを使用できます。 b)分野が限られているため、より迅速な検索。 c)関連性の問題を処理する必要があります。

  2. 言語固有のフィールド:a)多くのフィールドのために検索が遅くなる可能性があります。

  3. マルチコアアプローチ:a)多言語ドキュメントを扱う際の問題。 b)投与は困難であろう。 c)言語固有の検索が容易になります。

答えて

1

私は別々のコアを提案します。 IMHO、それは単に正しい方法です。

各コア/言語ごとにアナライザ(レーマタイザー/ステムマー)を別々に定義するため、Solrの自動言語認識を使用する必要はありません。 の欠点は定型部分の設定要素です(ほとんどの設定は両方のコアで同じです)。

Applying Language Specific Analyzer Dynamically before Solr Indexing

+0

ありがとうmbonaci、私はインデックスを作成するデータの言語を知りません。動的に言語を検出し、正しいコアを選択する方法はありますか? –

+0

言語検出:http://wiki.apache.org/solr/LanguageDetection http://lucidworks.lucidimagination.com/display/solr/Detecting+Languages+During+Indexing –

+0

ありがとうmbonaci。私はこの言語の検出を確認しました。それは言語を正しく検出していません。私の場合、精度は10%未満です。フォールバックフィールドを使用していないようです。すべての英語のコンテンツに対して、それは白でない言語を検出しています。それは白くリストされた言語のみを検出するはずであり、白いリストされた言語が一致しない場合、フォールバック言語にフォールバックする必要があります。 wangとは別にlangdetectを使うための他のポインタ。提案してください????? –

1

お読みください:Apache Solr multilanguage search あなたがウェアであれば、私はオプション2(私はそのオプションを使用しています)に行きます。

+0

感謝伏羲:

はこの最近、同様の記事を参照してください。私はあなたが提案したアプローチを使用すると思います。いずれのクエリも言語1または言語2であるため、多くのフィールドを検索するために検索が遅くなりますか? –

+0

それは可能ですが、私はそれを感じていません。 Solrが解析してページに表示することによって、結果を生成するのに費やす時間を比較します。あなたはいつもデフォルトの言語を最初に照会することができます。ヒットが得られない場合は、代替言語を試してください。ただし、合計で時間がかかります:) – Fuxi

関連する問題