私は多言語インデックスを構築する必要があるシナリオを持っています。特に2つのスクリプトの場合、これらの2つのスクリプトは完全に異なっています(ヒンディー語と英語)。そのステミングとレミナイザーは互いに影響しません。私のインデックスには膨大な数の文書が含まれています。 from follwing 3どのアプローチをインデックスに使用しますか? :Solrのインデックス方法
2つの言語の単一フィールド。 利点 - a)スクリプトが異なるので、両方のアナライザを使用できます。 b)分野が限られているため、より迅速な検索。 c)関連性の問題を処理する必要があります。
言語固有のフィールド:a)多くのフィールドのために検索が遅くなる可能性があります。
マルチコアアプローチ:a)多言語ドキュメントを扱う際の問題。 b)投与は困難であろう。 c)言語固有の検索が容易になります。
ありがとうmbonaci、私はインデックスを作成するデータの言語を知りません。動的に言語を検出し、正しいコアを選択する方法はありますか? –
言語検出:http://wiki.apache.org/solr/LanguageDetection http://lucidworks.lucidimagination.com/display/solr/Detecting+Languages+During+Indexing –
ありがとうmbonaci。私はこの言語の検出を確認しました。それは言語を正しく検出していません。私の場合、精度は10%未満です。フォールバックフィールドを使用していないようです。すべての英語のコンテンツに対して、それは白でない言語を検出しています。それは白くリストされた言語のみを検出するはずであり、白いリストされた言語が一致しない場合、フォールバック言語にフォールバックする必要があります。 wangとは別にlangdetectを使うための他のポインタ。提案してください????? –