2012-03-18 6 views
3

私はindexWriterでstandardanalyzerをテストし、それが自動的に次のコードは、私が使用したものであるとして、しかし、私はストップワードリストを追加していない、ストップワードを削除することを発見したlucene standardanalyzerはストップワードを削除し、ステミング機能を持っていますか?

StandardAnalyzer analyzer = new StandardAnalyzer(Version.LUCENE_35); 
     IndexWriterConfig config =new IndexWriterConfig(Version.LUCENE_35, analyzer); 

どこデフォルトのストップワードリストはありますか? また、このアナライザは自動的に語句を分断しますか?

答えて

4

API docsによれば、StandardAnalyzer.STOP_WORDS_SETに格納されているデフォルトのストップワード(英語からのもの)のセットが存在します。これはコンストラクタpublic StandardAnalyzer(Version matchVersion)でアナライザを作成した場合に使用されます。セットはStopAnalyzer.ENGLISH_STOP_WORDS_SETとまったく同じです。他のコンストラクタの1つを使用して、別の(おそらく空の)ストップワードのセットをアナライザに渡すことができます。

StandardAnalyzerは語りません。ステミングが必要な場合は、たとえばSnowballAnalyzerを使用します。

関連する問題