私は最初のプロジェクトをPythonで行いたいが、私はコーディングに問題がある。データを取得すると、 'ć'の代わりに '\ xc4 \ x87'のように、元の文字の代わりにコード化された文字が表示されます。コードは次のとおりです:URLを取得して、UTF-8 Pythonに変換する
import urllib.request
import sys
page = urllib.request.urlopen("http://olx.pl/")
test = page.read()
print(test)
print(sys.stdin.encoding)
z = "ł"
print(z)
print(z.encode("utf-8"))
私はここのコードは良くないと知っていますが、私はエンコードを変更するために多くのオプションを試しました。私はz = "ł"と書いて、「特別な」文字を印刷できるかどうかを確認して表示します。私はそれをエンコードしようとしましたが、それはまた必要なように動作します。 Sys.stdin.encodingはcp852を示します。
ありがとうございます。それはとても簡単に見え、私は混乱しているように感じます。私は何かsimilliarを試して、それは動作しませんでした。私が言ったように私は初心者です。 –
Python3でもUnicodeは難しいです。あなたが始めているのであれば、コードのコピーを手に入れることができますが、何が起こっているのかを深く理解したいときは、Ned Batchelderの「Pragmatic Unicode」や、 ? " https://www.youtube.com/watch?v=sgHbC6udIqcそれは本当に私を助けました。 – JonathanZ