0
私はSolr 6.5で作業しています。私が気づいたのは、インデックスファイルのサイズがコンテンツとともに増加し続けていることです。私はストップワードファイルを使用しており、一般的な言葉は索引付けされていません。Solrインデックスファイルでhtmlタグとガベージコンテンツのインデックスを削除する
私は索引に入れたくない多くのHTMLタグを見ています。私は索引付けしたくない内容のコメントだけでなく、索引付けしたくありません。これらを見つけてストップワードtxtを更新するにはどうしたらいいですか?
私は英語のコンテンツのみを索引付けしており、索引ファイルはすでに30GBで、9百万のドキュメントしかありません。