6
私はSolrを初めて利用しています。 Solrのwikiを読むと、WhitespaceTokenizerFactoryとStandardTokenizerFactoryの違いを理解できません。彼らの本当の違いは何ですか?WhitespaceTokenizerFactoryとStandardTokenizerFactoryの違い
私はSolrを初めて利用しています。 Solrのwikiを読むと、WhitespaceTokenizerFactoryとStandardTokenizerFactoryの違いを理解できません。彼らの本当の違いは何ですか?WhitespaceTokenizerFactoryとStandardTokenizerFactoryの違い
解析されたテキストをトークンに分割する方法が異なります。
StandardTokenizerないこの次(のLuceneのjavadocから取られた)に基づいて:句読点を削除句読点文字で
WhitespaceTokenizerは空白文字に基づいてこれを行います:
A WhitespaceTokenizerは空白でテキストを分割トークナイザです。非空白文字の隣接シーケンスはトークンを形成します。
アプリケーションに最適なトークナイザを選択する必要があります。いずれの場合でも、インデックス作成と検索に同じアナライザ/トークナイザを使用する必要があります。
ありがとうcsupnig!インデックスと検索に「同じアナライザ/トークナイザを使用する」と言うと、使用しているトークナイザのタイプにアナライザを一致させる必要があります。 – trillions
はい、同様のトークンを生成するために同じことを行う必要があります。索引付け中に使用したトークナイザとは異なるトークナイザをクエリパーザで使用することは稀です。 – csupnig
ありがとうcsupnig :) – trillions