lucene standardanalyzerはストップワードを削除し、ステミング機能を持っていますか？

私はindexWriterでstandardanalyzerをテストし、それが自動的に次のコードは、私が使用したものであるとして、しかし、私はストップワードリストを追加していない、ストップワードを削除することを発見したlucene standardanalyzerはストップワードを削除し、ステミング機能を持っていますか？

StandardAnalyzer analyzer = new StandardAnalyzer(Version.LUCENE_35); 
     IndexWriterConfig config =new IndexWriterConfig(Version.LUCENE_35, analyzer);

どこデフォルトのストップワードリストはありますか？また、このアナライザは自動的に語句を分断しますか？

出典

2012-03-18 user1225072

API docsによれば、StandardAnalyzer.STOP_WORDS_SETに格納されているデフォルトのストップワード（英語からのもの）のセットが存在します。これはコンストラクタpublic StandardAnalyzer(Version matchVersion)でアナライザを作成した場合に使用されます。セットはStopAnalyzer.ENGLISH_STOP_WORDS_SETとまったく同じです。他のコンストラクタの1つを使用して、別の（おそらく空の）ストップワードのセットをアナライザに渡すことができます。

StandardAnalyzerは語りません。ステミングが必要な場合は、たとえばSnowballAnalyzerを使用します。

出典

2012-03-18 17:17:47

lucene standardanalyzerはストップワードを削除し、ステミング機能を持っていますか？

答えて

関連する問題