2012-03-03 5 views
-3

私は以下のようなファイルがあります:ファイルをシステム文字で解析する方法は?

「」ЪNUL$ 13adc1e6-465e-11E1-a8f8-047d7b47de33 『®188.254.116.66®188.254.116.67®188.254.116.68ЁРЈСЂРЅР°ЪNUL ed4bac9f1f1bf6812e76ef21a78fe9c0』ЪNUL$ 13b2fd14-を465E-11E1-a8f8-047d7b47de33“ ®188.254.116.66®188.254.116.67®188.254.116.68°РљРѕРјРёСЃСЃРёСЏЪNUL 194bb53b6970bcc08ca743d2d238057f

(元はhereをダウンロードすることができます)

は、どのように私は(一度ダウンロードしたが)を抽出することを解析することができます:

13adc1e6-465e-11E1-a8f8-047d7b47de33

13b2fd14-465e-11E1-a8f8-047d7b47de33

188.254.116.66

?私はこのシステム文字を探す方法がわかりません。

+0

"システムキャラクター"とは何ですか? [正規表現](http://docs.python.org/howto/regex.html)をお探しですか? – phineas

+1

オリジナルをダウンロードしようとしましたが、ロシアのログインページしかありませんでした。 – Gabe

+0

@Gabe、これは申し訳ありません。ログイン 'abu @ asdasd.ru'を使用し、' 123456'を渡してください –

答えて

3

この場合、「文字」と考えるべきではありません。ファイルはバイナリ形式です。

(理想的な)ファイル形式の仕様を保持していない場合は、ファイルの16進ダンプを見てください。このようなテキストの印刷ではありません。

たとえば、®は、値がA9のバイトです(ただし、このようなテキストプリントは正確ではないため確かではありません)。これは、16進ダンプから明らかです。

次に、データバイト文字列で'\xa9'をスキャンできます。

関連する問題