これは、一般的なアルゴリズムは、あまりにもあなたがSolrのでは(最初の3行をスキップしてください)テキストでのSolrスペル修正アルゴリズム
を見れば、スペルチェックコンポーネントのために、私はの周波数を取得するためにextendedResultsを設定して読み取りを停止いけないしてくださいものです最良の頻度の単語を選択します。編集距離に基づいてスペルチェックアルゴリズムを理解します。たとえば、次のように
クエリのSolrへ:マリエン
スペルチェック返されたテキスト:マリン(FREQ:120)、市場(FREQ:900)など。ここの私の辞書は、索引語に基づいています。
私は市場を選んだが(頻度は多い)、私の意図は海洋だったので間違っている。両方とも編集距離が2です。
ここで、市場ではなく海洋を選択するために、このアルゴリズムを改善するにはどうすればよいですか?
「soundex」アルゴリズムも組み込む必要がありますか?
私はすぐに実装できる簡単なものを探しています。
私はPeter Norvigのスペルコレクタアルゴリズム(これは素晴らしい)を使ってみましたが、同じ問題が発生しました。
soundex **の音を追加すると**私には良いことです。あなたが良い "soundex"を見つけたら、与えられた単語に対して、それをユーザに提案してください。そうでない場合は、freqとdistanceの2つの変数を使用します。 – vulkanino