人々がタイトルを違う方法でどのように掘り下げているかを少し調べてから、私は英語以外のタイトルを扱う方法が欠けていることが多いことに気付きました。スラッグとユニコードのルール
URLエンコードは非常に制限的です。人々は
のようなもののためにタイトルナメクジのための対処はどうすればよい例えば、そうhttp://www.blooberry.com/indexdot/html/topics/urlencoding.htm
を参照してください「ウナlágrimaカヨエン・ラ・アリーナ」
一つは、インドヨーロッパ言語のための合理的なテーブルを考え出すことができますすなわち、 ISO-8859-1でコード化できるもの。例えば、変換テーブルは、「A」=>「」、スラグのようになりますので
「ウナlagrima-カヨエン・ラ・アリーナ」しかし
、私が使用しているユニコードを翻訳します(特にUTF-8エンコーディングを使用しているため)、どのソートコードポイントを取得するのか保証しません(ISO-8859-1エンコードできないものを準備する必要があります)。
どうすればいいですか?ISO_8859-1の範囲(< 255)の文字の変換テーブルを用意し、それ以外のものはすべてドロップする必要がありますか?
EDIT:先ほどのやり方を少し前向きに説明するために、インド以外の言語のデータを実際に掘り下げることは期待していませんが、そのようなデータに遭遇すれば計画を立てたいと思います。 拡張ASCII用の変換テーブルが良いでしょう。すべてのポインタ?また
、人々は他のすべてが失敗した場合は、変換テーブルを使用することができますが、可能なより高性能のソリューションがあるかもしれないGoogle App Engineの上
ところで、URLにUnicodeが許可されていない理由は何ですか? – Zifre