2016-11-21 3 views
2

私は弾性検索の定義済みのストップワードリストが何であるかを調べようとしていますが、これについては文書化された読み取りAPIが見つかりませんでした。弾性検索でデフォルトのストップワードリストを取得

だから、私はthis predefined variables用単語リストを見つけたい(_arabic_, _armenian_, _basque_, _brazilian_, _bulgarian_, _catalan_, _czech_, _danish_, _dutch_, _english_, _finnish_, _french_, _galician_, _german_, _greek_, _hindi_, _hungarian_, _indonesian_, _irish_, _italian_, _latvian_, _norwegian_, _persian_, _portuguese_, _romanian_, _russian_, _sorani_, _spanish_, _swedish_, _thai_, _turkish_

私は、ドキュメントでenglish stop word listを見つけましたが、私はそれは私のサーバーが実際に使用するものであるかどうかを確認し、またストップワードを確認したいです他の言語のリスト

答えて

5

英語のアナライザで使用されるストップワードは、Standard Analyzerで定義されているストップワード、つまりドキュメントに記載されているものと同じです。

他のすべての言語のストップワードファイルは、analysis/common/src/resources/org/apache/lucene/analysisフォルダのLuceneリポジトリにあります。

+1

ありがとうございます!注:フォルダ内のファイルを調べましたが、より一般的な言語(英語、ドイツ語など)は、自分の言語フォルダではなく「snowball」ディレクトリに配置されているようです。 –

+0

うん、それは正しい!それが助けてくれてうれしい。 – Val