単語を含む各部分文字列が別々のトークンとして扱われるようにフィールドをインデックスする方法はありますか?Solrトークナイザフィルタサブ文字列
たとえば、入力: 「こんにちは、元気?」
出力: の "Hello Worldどのようにしている" これは、提供するために、SuggestComponentの組み合わせで使用される、 "Hello World" の、 "こんにちは"
"どのようにHello World" の、 "どのようにしているのHello World"、ユーザーの自動脅威。
単語を含む各部分文字列が別々のトークンとして扱われるようにフィールドをインデックスする方法はありますか?Solrトークナイザフィルタサブ文字列
たとえば、入力: 「こんにちは、元気?」
出力: の "Hello Worldどのようにしている" これは、提供するために、SuggestComponentの組み合わせで使用される、 "Hello World" の、 "こんにちは"
"どのようにHello World" の、 "どのようにしているのHello World"、ユーザーの自動脅威。
原則として、solr.ShingleFilterFactory
のようなものがあなたのためにトリックを行うことができます。それはあなたのためのトークンのたくさんが生成され、そのうちのいくつかは、あなたのために有用ではないかもしれないので
(また、それはあなたのために、ディスク上の無駄なスペースの多くを意味する)、minShingleSize
とmaxShingleSize
:それは2つのparamsを持っています潜在的に、必要なトークンを除外するか、独自のフィルタを作成する必要があります。