2017-04-17 12 views
0

Lucene 4.10で約600mbのファイルを索引付けしようとしました(TIKAと索引付けを使用してそれらを解析しました)。すべてうまく動作しますが、.posファイルが1GBを超えていることに気付きました。私には疑いがあります。.posファイルのサイズを縮小する方法や、それをまったく無効にする方法はありますか?Lucene .posファイルのサイズ

おかげ

答えて

0

はこちらをご覧:https://lucene.apache.org/core/6_2_0/core/index.html?org/apache/lucene/codecs/lucene50/Lucene50PostingsFormat.html

.posファイルは、「スタックオーバーフロー」のような正確な順序で複数の単語を検索するために必要な用語の位置です。

あなたはsetStoreTermVectorPositions(false)FieldFormatでそれを設定することによって、彼らの作成を無効にすることができます https://lucene.apache.org/core/6_5_0/core/org/apache/lucene/document/FieldType.html

位置1GBのがたくさん聞こえる、それが正常にこの大きなではありません。私の場合、.posファイルはインデックスサイズの約10%であり、すべてのテキストフィールドでポジションが有効になっています。

+0

私の場合、奇妙なのは、.posファイルがインデックスファイル内で最大のものであることです。それはかなり大きく、インデックスサイズの約90%です。これはLuceneの比較的古いバージョン(4.10.4 )?これを無効にすると、「オーバーフロースタック」と「スタック・オーバーフロー」が検出されます。 – SlavaG

+0

"スタック"と "オーバーフロー"を含むページはどこかにありますが、それらは同じ段落内にないかもしれません。これにより、クエリに関連性の低い結果が生成されます。 – sleeplessnerd

+0

ありがとう、それは実際に私のために良いです:) – SlavaG