0
私はLuceneで科学記事を索引付けしています。私は次の設定を使用しています:科学記事の数字を削除するためのEnglishAnalyzerを使用したLucene TokenFilter
EnglishAnalyzer analyzer = new EnglishAnalyzer(Version.LUCENE_43, EnglishAnalyzer.getDefaultStopSet());
IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_43, analyzer);
これは言葉に良いことです。しかし、私は "0.99"や "3,14"のようなトークンを削除したいが、 "H2O"のようなテキストを(1つのトークンに "n = 3"でも可能であれば)保存する。私はSimpleAnalyzer
を試しましたが、私が欲しいものではありません。
アイデア?
ありがとうございます!
まずは大変ありがとうございます!完璧に働いています!しかし、私はこの "キャリアの逃避"をこの "キャリア構造の逃避"に変えたいと思っています。つまり、EnglishAnalyzersを使うことです。出来ますか?再度、感謝します! –
EnglishAnalyzerはLowerCaseFilter、PossesiveFilter、PorterStemmingの組み合わせであり、多分それを心に覚えていない可能性があります。したがって、手動で必要なものだけを追加することもできます。 EnglishAnalyzerはn = 3をトークンに分解します – Mysterion