WhitespaceTokenizerFactoryとStandardTokenizerFactoryの違い

私はSolrを初めて利用しています。 Solrのwikiを読むと、WhitespaceTokenizerFactoryとStandardTokenizerFactoryの違いを理解できません。彼らの本当の違いは何ですか？WhitespaceTokenizerFactoryとStandardTokenizerFactoryの違い

出典

2012-06-25 trillions

解析されたテキストをトークンに分割する方法が異なります。

StandardTokenizerないこの次（のLuceneのjavadocから取られた）に基づいて：句読点を削除句読点文字で

スプリット言葉、。しかし、空白が付いていないドットはトークンの部分と見なされます。
トークンに数字がない限り、ハイフンで単語を分割します。この場合、トークン全体が数字の数字と解釈され、分割されません。
電子メールアドレスとインターネットトークンとしてホスト名を認識します。

WhitespaceTokenizerは空白文字に基づいてこれを行います：

A WhitespaceTokenizerは空白でテキストを分割トークナイザです。非空白文字の隣接シーケンスはトークンを形成します。

アプリケーションに最適なトークナイザを選択する必要があります。いずれの場合でも、インデックス作成と検索に同じアナライザ/トークナイザを使用する必要があります。

出典

2012-06-25 03:13:57 csupnig

ありがとうcsupnig！インデックスと検索に「同じアナライザ/トークナイザを使用する」と言うと、使用しているトークナイザのタイプにアナライザを一致させる必要があります。 – trillions

はい、同様のトークンを生成するために同じことを行う必要があります。索引付け中に使用したトークナイザとは異なるトークナイザをクエリパーザで使用することは稀です。 – csupnig

ありがとうcsupnig :) – trillions

WhitespaceTokenizerFactoryとStandardTokenizerFactoryの違い

答えて

関連する問題