Unidecodeこの問題の特定のフォームを解決するのに役立ちます。 Unidecodeは、たとえば、ASCIIに非ASCII文字を変換します:
>>> from unidecode import unidecode
>>> unidecode(u"İstanbul")
'Istanbul'
あなたはUnicode文字を分解し、組み合わせ発音区別符号を除去することにより、同様の効果を得ることができます。このテクニックの問題は、特定の文字が分解可能でないことです。。したがって、 "ö"は "o"とウムラウトに分解されますが、 "Ł"(L-ストローク)は同じままです。 Unidecodeは「Ł」を「L」に変換します。
しかし、Undeicodeはすべての問題を解決するわけではありません。都市は異なる名前で知られているか、またはこれらの名前は別々に書かれています。たとえば、米国では中国の首都を「北京」と呼んでいますが、それを「北京」と呼んでいます(スウェーデン語ではまだ北京と呼ばれています)。unidecode
で名前を変えてください。
>>> unidecode(u"\u5317\u4EB0")
'Bei Jing '
最も適切な解決策は、言語固有の名前リストを使用して、市の実際の名前を使用しないことです。
"現在、それはありますか"と言うと、 "現在、検索操作はこのコードで実装されています:"という意味ですか? –
どのような動作が必要ですか?アクセントのないラテン文字とアクセントのないラテン文字を一致させたいですか?日本の「イスタンブール」の検索などの音訳をしたいですか?スペルミスはどうですか?検索結果がどのような順序で返されますか? –
データベース照合と接続照合はどのようなものですか? –