2016-05-25 13 views
0

私は、文字列アナライザの仕組みや、インデックスの用語配列を構築するときにどの文字を解析するのかに関するドキュメントを探していますか?デフォルトのアナライザはどの文字を解析しますか?

herehere私は運がなく見えました。ここで

は一例です:

私はインデックスにした場合は、フィールドを持っていた文書が"test"または"hotmail.com"がクエリとして与えられたならば、試合のクエリはこの文書を返す値"[email protected]"emailと呼ばれます。これは、アナライザーが@文字で解析しますが、.文字では解析しないことを示しています。

他の文字が通常の文字として扱われ、どの文字が完全に取り除かれ、どの文字が解析されるかについてもっと知りたいですか?

私はこの情報をどこに見つけることができますか? 2番目のリンクで説明したように

答えて

1

は、あなたの文字列を解析する際にキックデフォルト・アナライザは、standard tokenizer使用standard analyzer、です。

最後のリンクを確認すると、標準のトークナイザがUnicode Standard Annex #29のトークン化ルールを適用していることがわかります。その文書で

は、セクションは4 Word Boundariesと呼ばれ、他のどの文字とするとき、トークンを分割するために、この様々なルールに従って、多くの異なるUnicodeシーケンスに応じては(も分析されている言語によって異なります)正確にどのように定義5 Sentence Boundariesと呼ばれるがあります。

例えば、ピリオド.は、スペースの直後にスペースが続く場合にのみ、文章の境界とみなされます(電子メールではそうではありません)。

関連する問題