2012-06-25 5 views

答えて

23

解析されたテキストをトークンに分割する方法が異なります。

StandardTokenizerないこの次(のLuceneのjavadocから取られた)に基づいて:句読点を削除句読点文字で

  • スプリット言葉、。 しかし、空白が付いていないドットはトークンの部分 と見なされます。
  • トークンに数字がない限り、ハイフンで単語を分割します。この場合、トークン全体が数字 の数字と解釈され、分割されません。
  • 電子メールアドレスとインターネット トークンとしてホスト名を認識します。

WhitespaceTokenizerは空白文字に基づいてこれを行います:

A WhitespaceTokenizerは空白でテキストを分割トークナイザです。非空白文字の隣接シーケンスはトークンを形成します。

アプリケーションに最適なトークナイザを選択する必要があります。いずれの場合でも、インデックス作成と検索に同じアナライザ/トークナイザを使用する必要があります。

+0

ありがとうcsupnig!インデックスと検索に「同じアナライザ/トークナイザを使用する」と言うと、使用しているトークナイザのタイプにアナライザを一致させる必要があります。 – trillions

+2

はい、同様のトークンを生成するために同じことを行う必要があります。索引付け中に使用したトークナイザとは異なるトークナイザをクエリパーザで使用することは稀です。 – csupnig

+0

ありがとうcsupnig :) – trillions