2012-10-29 4 views
10

外部ソースからテキストをテキストエディタ(TextMateやSublime Text 2など)に貼り付けるときによくある問題は、特殊文字も貼り付けることが多いことです。これらの文字の一部は正常に表示されますが、ソースによっては正しく表示されない場合があります(通常、ボックスの周囲に疑問符として表示されます)。テキストエディタで特殊文字の文字コードを見つける方法はありますか?

だから、これは実際には2つの質問です:

  1. は、特殊文字(例えば、 'や♥)を考えると、私は私のテキストエディタ内部からその文字を表示するために使用されるUTF-8文字コードを決定することができ、かつ/またはそれらの文字を文字コードに変換しますか?

  2. 「特別な」文字がガーベッジとして表示される場合、その文字をソーステキストに表示するためにどのエンコーディングが使用されたか把握する方法はありません。これらの文字は何とかUTF-8 ?

+0

この[オンラインツール](https://www.soscisurvey.de/tools/view-chars.php)を使用して、未知の文字列を貼り付けて、そのユニコード番号を表示することができます。 – BurninLeo

+0

基本的な助けとして、Pythonに知られているレガシー8ビットエンコーディングの0x80-0xFFの範囲にあるすべての文字コードのテーブルを作成しました。これはよく参照します:https://cdn.rawgit.com/tripleee /8bit/master/encodings.html – tripleee

答えて

15

お気に入りの検索サイトはfileformat.infoです。彼らは、それぞれのキャラクターとそのさまざまなエンコーディングに関する多くの有益な情報を含んだ素晴らしいUnicodeキャラクター検索を持っています。

疑問符がボックスで表示されている場合、解釈できないものが貼り付けられていることがよくあります。正当なUTF-8ではないことがよくあります(すべてのバイトシーケンスが正当なUTF-8であるわけではありません)。 1つの可能性は、エディタが期待していないエンディアンモードのUTF-16だということです。完全な元のソースをファイルに取り込むことができる場合は、fileコマンドがエンコーディングを決定するための最良のツールとなることがよくあります。

+0

このリンクは便利でした。そこから、私はhttp://www.i18nqa.com/debug/utf8-debug.htmlで終わりました。これは、通常の容疑者の一部を含むテーブルを示しています。 – Michael

+0

@RobNapierスペース文字では機能しません。 – user2284570

7

&what私は文字の検索に焦点を当てたツールを構築しました。これは、すべてのUnicodeとHTMLのエンティティテーブルをインデックスするだけでなく、ハッカー辞書と私が収集したキーワードのデータベースを補足するので、あなたはheart,quot,weather,umlaut,hash,cloverleafのような単語を検索して、好きなものを得ることができます。検索に重点を置くことで、Unicodeページを巡ることを避けることができ、イライラすることがあります。試してみる。

関連する問題