私はLuceneのインスタンスで、次のように文書を格納しています:なぜLuceneインデックスが大きいのですか?
Document doc = new Document();
doc.add(new StringField("title", processor.title, Field.Store.YES));
doc.add(new StringField("annotation", processor.annotation, Field.Store.YES));
doc.add(new TextField("text", processor.text, Field.Store.NO));
w.addDocument(doc);
私はインデックスに格納するフルテキストを必要としない、私は必要な唯一のものは、書類上の検索を実行できるようにすることです。
問題は、元のドキュメントセットのサイズとほぼ同じサイズのインデックスを取得していることです。それは単語の頻度だけを格納する必要があるので、私にとっては非常に奇妙なようです。なぜそれが起こっているのですか?
サンプルドキュメントを追加して、元のドキュメントにいくつのフィールドがあるかなどを追加できますか?また、どのくらいのドキュメント、どのくらいの大きさのフィールド、どのくらいのドキュメントやインデックスがいいですいくつかの数字がいいです。 –
@DominikSandjajaドキュメントには、質問に表示される3つのフィールドがあります。インデックスに格納されていないテキストのサイズは、普通の英語テキストの〜100Kです。 –
IndexWriterとIndexWriterConfigの作成方法を教えてください。 –