2012-02-26 21 views
1

エンコーディングの種類は誰に分かりますか?不明なエンコーディング

\u042e\u043b\u0438\u044f 

私が知っている唯一のことは、これはそれがUnicodeで「Юлия」(ジュリア)は、非ラテンアルファベットで

+0

'-n1 charの読み込み中に'のような文字列を操作することは可能です。 printf '\\ u%04x' "'$ char"を実行します。 done <<< $(echo -n 'торги'); '' echo 'と '-r行を読み込み中です。 echo -e "$ line";を実行します。 done user3132194

答えて

3

名前であるということです。

+0

明確にするために、これはUnicode文字列のJavaScript表現かもしれません。これはChrome Developer Toolsコンソールの私のために働いた: 'console.log(" \ u042e \ u043b \ u0438 \ u044f ") –

+0

アレクサンダー、ありがとう、あなたはそれをpythonでどうやって入手するのですか?私は既にエンコード/デコードで試してみましたが、運勢はありませんでした。 – user1183090

+0

Unicodeはエンコードではありません。 – tchrist

1

\uは、数値Unicodeコードポイント参照を示すためによく使用されます。この場合、Unicodeを扱っています。問題のコードポイントの正確な定義のためのコードテーブルを調べることができます。公式ウェブサイトのcode chartsは定義された範囲の概要を示し、this websiteは値で検索します。

1

キリル文字ブロックのUTF-16文字のようです。

U+042E CYRILLIC CAPITAL LETTER YU 
U+043B CYRILLIC SMALL LETTER EL 
U+0438 CYRILLIC SMALL LETTER I 
U+044F CYRILLIC SMALL LETTER YA 
0

あなたのpythonでそれを取得する方法を知っていますか?原則としてunicode-escape

>>> '\\u042e\\u043b\\u0438\\u044f'.decode('unicode-escape') 
u'\u042e\u043b\u0438\u044f' 
>>> print _ 
Юлия # dependent on your terminal supporting Unicode 

しかし、これが唯一の\uシーケンスをデコードし、これはあなたが実際に何をしたいのかが非常にありそうではありません。

異なる言語のがあります。\uは、JavaScriptとPythonを含む文字列リテラルエンコーディングです。それぞれは、他のどのようにエスケープシーケンスが動作するかについて、そして潜在的にUTF-16サロゲートの処理の周りに若干異なるルールを持っています。だからあなたはあなたが扱っている正確な言語を知り、その言語用に設計されたパーサを使う必要があります。

JSONは、通常、最初の良い推測です。

+0

問題は、これらの文字列を操作してレガシ・データベースに存在する他の人と名前を比較する必要があるため、プリントを使用できないということです。 – user1183090

+0

結果があります。文字列 'u '\ u042e \ u043b \ u0438 \ u044f'' *は文字列 'u'Юлия''です。 – bobince

関連する問題