2017-11-29 5 views
0

検索のためのsolrを持つDrupalサイトです。主に私は現在の中国語の検索結果に満足していません。トークナイザは単語を小さな小片に分割しました。それらのほとんどは合理的です。しかしそれでも、何かを破ったり破ったりしないで、有効なトークンとして扱わないことで間違いを犯しました。カスタマイズされたトークンをsolrに追加してインデックストークンの動作を変更する方法

私は今中国語を書いていると仮定します:big data analysisは壊れてはならない1つの単語です。それで私の検索でそれを見つけるはずです。また、正確なフレーズAI and big data analysis trainingを検索すると、最初のヒットとしてAI and big data analysis trainingが見つかるようにしたいと考えています。

ですから、現在のトークンに介入したり補正したりして検索をよりスマートにする方法が必要です。

おそらくファイルにsolrというファイルがあり、これらのトークンを手作業で特定のフレーズに関連付けることができますか?したがって、インデックス作成のたびに、solrを参照として使用できます。

+0

ですから、トークナイザを使用していますか? 'pf2'と' pf3'引数をedismaxのために使用して、シングルを押し上げることもできます。また、トークンをマージすることを可能にする屋根の要素もありますが、「これらの4つのトークンが1つのトークンでなければなりません」と言うことを許可するものは認識していません。 – MatsLindh

答えて

0

あなた、あなたが望むものを達成するために、異なる工程:

1)私はあなたの「トークン化を超える」と非常に大きな問題が表示されていない。

ビッグデータ分析はいけない一言です壊れる。それで私の検索でそれを見つけるはずです。 - >あなたの検索ではトークン化されても検索されますが、これは例であり、実際の言葉は中国語ですが、別の問題があると思われます。

2)edismax [1]その後のトークンまたはフレーズ高めるための様々なレベルでのブースト(PF、PF2、PF3 ... PS、PS2、PS3を...)

[1] https://lucene.apache.org/solr/guide/6_6/the-extended-dismax-query-parser.htmlhttps://lucene.apache.org/solr/guide/6_6/the-extended-dismax-query-parser.html#TheExtendedDisMaxQueryParser-ThepsParameter

関連する問題