テキスト内の各番号の用語を作成することはできますか? 例のテキスト:Luceneの数字の多いテキストの索引付け
I got 2295910 unique terms.
番号は、タイムスタンプ、ポート番号、何もすることができます。ユニークな数は非常に多数のユニークな用語につながります。文書と同じ数のユニークな用語を持つことは正しいと感じません。 Lucene memory usage grows with the number of unique terms。
数字の付いたテキストのための特別なアナライザまたはトリックはありますか? StandardAnalyzerは、固有の番号ごとに用語を作成します。
ニーズ:
番号が検索可能なままにしてください。ある文書に複数の数字がある可能性があります。 メモリの使用が問題です。私は複数のインデックスディレクトリに800Mのドキュメントを持っています。 メモリ使用量により、最近使用されていないIndexSearchersを閉じることができます。
未テストのアイデア:
- 特別アナライザを使用してください。数字をチャンクに分割します。 123456は "123 456"になります。クエリパーサーは、フレーズ検索を使用して番号を検索します。
- Luceneコードを変更して、数値の用語を表示するときに、より大きなtermInfosIndexDivisorを使用するようにします。
多分私は車輪を再発明しています。既に誰かが解決したのだろうか?
OKです。インデックスには多くのユニークな用語があることは間違いありません。より大きなtermInfosIndexDivisorはメモリ使用量を減らすのに役立ちます。 –