import urllib.request as u
zipcode = str(47401)
url = 'http://watchdog.net/us/?zip=' + zipcode
con = u.urlopen(url)
page = str(con.read())
value3 = int(page.find("<title>")) + 7
value4 = int(page.find("</title>")) - 15
district = str(page[value3:value4])
print(district)
newdistrict = district.replace("\xe2\x80\x99","'")
print(newdistrict)
何らかの理由で、私のコードは、次の形式でタイトルを取得しています:IN-09: Indiana\xe2\x80\x99s 9th
。私は\xe
文字列が'
シンボルのユニコードであることを知っていますが、どのようにしてその文字セットを'
シンボルで置き換えるかを知ることはできません。私は文字列をデコードしようとしましたが、すでにUnicodeであり、上記の置換コードは何も変更しません。私が間違ってやっていることに関するアドバイスは?Pythonがこのテキストを正しく表示しないのはなぜですか? (UTF-8デコードの問題)
あなたは 'ユニコード 'リテラルを使ってみましたか? –
あなたはそれが何を意味しているかについて完全にはわかりません、もう少し情報を提供できますか? – user1353035
それは '' 'ではなく、' ''(U + 2019、右一重引用符)です。 –