2017-08-31 6 views
0

単語を含む各部分文字列が別々のトークンとして扱われるようにフィールドをインデックスする方法はありますか?Solrトークナイザフィルタサブ文字列

たとえば、入力: 「こんにちは、元気?」

出力: の "Hello Worldどのようにしている" これは、提供するために、SuggestComponentの組み合わせで使用される、 "Hello World" の、 "こんにちは"

"どのようにHello World" の、 "どのようにしているのHello World"、ユーザーの自動脅威。

答えて

0

原則として、solr.ShingleFilterFactoryのようなものがあなたのためにトリックを行うことができます。それはあなたのためのトークンのたくさんが生成され、そのうちのいくつかは、あなたのために有用ではないかもしれないので

(また、それはあなたのために、ディスク上の無駄なスペースの多くを意味する)、minShingleSizemaxShingleSize:それは2つのparamsを持っています潜在的に、必要なトークンを除外するか、独自のフィルタを作成する必要があります。

関連する問題