2011-10-04 19 views
9

私はSolrを初めて使用しています。いつ使用したいですか標準トークンファクターキーワードトケイザーファクトリーSolrのStandardTokenizerFactoryとKeywordTokenizerFactoryの違いは?

私はApache Wikiのドキュメントを読んでいますが、私はそれを入手していません。

誰でも説明できますStandardTokenizerFactoryとKeywordTokenizerFactoryの違いはですか?

答えて

25

StandardTokenizerFactoryは: -
それは空白にトークン化し、同様に文字

ドキュメントを取り除き: -

スプリット言葉句読点文字で、句読点を取り除きます。 しかし、空白が続くドットは の一部とみなされます。 トークンに数字がない限り、ハイフンで単語を分割します。その場合、トークン全体は製品番号 と解釈され、分割されません。電子メールアドレスとインターネット のホスト名を1つのトークンとして認識します。

これは、フィールドデータを検索するフィールドに使用します。

-

http://example.com/I-am+example?Text=-Hello 

は、(カンマで区切られた)7つのトークンを生成する -

http,example.com,I,am,example,Text,Hello 

KeywordTokenizerFactoryを: -

キーワードトークナイザが全く入力を分割しません。
文字列に対して処理が行われず、文字列全体が単一のエンティティとして扱われます。
これは実際にはトークン化を行いません。元のテキストを1つの用語として返します。

主にソートやファセットの要件に使用されます。複数の単語でフィルタリングするときの正確なファセットと一致させ、ソートとしてのソートはトークン化されたフィールドでは機能しません。

http://example.com/I-am+example?Text=-Hello 

単一のトークン生成する -

http://example.com/I-am+example?Text=-Hello 
+2

StandardTokenizerFactoryは、例えば、すべての句読点に(won't'など 'can't'例えば')アポストロフィを含む単語を分割しませんがします触れないでください。 – Qwerky

+0

はい。前述したように、すべての特殊文字で分割されたり、特殊文字を除外したりすることはありません。それには一定の規則があります。 – Jayendra

関連する問題