ウィキペディアの記事は、用語ではかなり緩いです。 「自然言語」には「弦」といったものはありません。文字や文字の組み合わせで表現できる自然言語の音素があります。
いくつかの文字の組み合わせは、現代に生き残った歴史的な慣習の痕跡であり、現代の英語の「粗い」と同じように「gh」が-f-のように聞こえたり、まったく音が出ないことがあります。生の「文字列」に焦点を当てると、アルゴリズムは言語と正義の歴史的関係について不可知論的でなければならず、文字の組み合わせが単一の音素に関連するときはいつでも何らかのメトリックにつながるはずです。どのように "ラフ"から "ルーフ"になるのでしょうか?または "through"から "thru"まで? ドイツ語のウムラウトから "oe"?
あなたのケースでは、-y-は、音声学的に、正書法で-ij-と交換することができます。それでは、アルゴリズム、2つの削除、その後の挿入、または-j-または-i-の1つの削除に続いて、残りの文字の-y-への転置が続くでしょうか?あるいは、合体して合体に転じるのですか?
アルゴリズムを適用する前に、別の使用されていない別の文字を-ij-に使用することをお勧めします。おそらく、U00ECのラテン小文字iに重アクセント記号を付けます。
アルゴリズムはマルチコードポイント文字をどのように処理しますか?
出典
2011-01-04 13:38:56
Tim
オランダ語を音素に変換して距離を取るとどうなりますか? – dnagirl
AFAIKの場合、距離は「元の」2つのテキストに比べて変化することがあります。 –