Luceneのインデックス作成中に頭字語のドットを保存する

Luceneに頭文字のドット（例：英国、米国など）を保存したい場合は、どのアナライザを使用する必要がありますか？これを実行している間、Luceneに一連のストップワードを入力したいと思っています。Luceneのインデックス作成中に頭字語のドットを保存する

出典

2009-07-18 Jimmy

WhiteSpaceAnalyzerはドットを保存します。 StopFilterはストップワードのリストを削除します。必要な分析を正確に定義し、分析計とトークンフィルタを組み合わせて達成するか、write your own analyzerを設定する必要があります。

出典

2009-07-20 08:37:44

StandardTokenizerは、文字間に発生するドットを保存します。 StandardTokenizerを使用するStandardAnalyzerを使用できます。または、StandardTokenizerで独自のアナライザーを作成することもできます。

訂正：頭字語からドットを削除するStandardFilterを使用するため、StandardAnalyzerは役に立ちません。 StandardTokenizerと追加フィルタ（小文字フィルタなど）からStandardFilterを差し引いた独自のアナライザを構築できます。

出典

2009-07-19 08:27:25

urのコメントありがとうございました...参考、私は既に私のコードでStandardAnalyzerを使用しています： protected readonly StandardAnalyzer _analyzer = new StandardAnalyzer（stop_words）; 頭字語からドットを削除しています... – Jimmy

Luceneのインデックス作成中に頭字語のドットを保存する

答えて

関連する問題