私は過去数日間、soundex、メタフォン、その他の文字列検索技術を研究していましたが、私の理解では両方のアルゴリズムが英語に翻訳された英語以外の単語をうまく処理します。英語以外の文字にsoundex/metaphoneを有効にする
しかし、このような検索は、ドイツ語、ノルウェー語、さらにはシラミルのアルファベットなどのアルファベットを収容した元の翻訳されていない言語で動作するようにする必要があります。
これらのアルファベットを完全に処理できる検索アルゴリズムはありますか?あるいはLuceneのようなサードパーティのフルテキスト検索ライブラリを使うのがよいですか?その結果、質問は「Luceneは英語以外のアルファベットを扱うのですか?」という質問になります。
英語以外の言語のテキスト検索のユースケースの場合、soundexは必要ありません。 ire_and_cursesは言ったように、適切なAnalyzerでLuceneが必要です。同じ単語の異なる筆記体を扱いたい場合は、音韻的なマッチングアルゴリズムが必要です。あなたのユースケースについてもっと詳しく言うことができますか? –