私は美しいスープに問題があります。Pythonの美しいスープコード
print {'title' : string_with_german_umlauts}
print {'title' : self.cleanHtml(string_with_german_umlauts)}
I取得文字列として、以下の出力 'LederGürtel': 私はので、私は次の関数
def cleanHtml(self, html):
try:
soup = BeautifulSoup(html);
content = soup.findAll(text=True)
return ''.join(content);
except:
print html
私が今持っている、文字列内のHTMLタグを取り除くGEDにしてみてください(革ベルトを意味する)
{'title': 'Leder G\xc3\xbcrtel'}
{'title': u'Leder G\xfcrtel'}
右のエンコーディングはウムラウト 'U' のためのコース\ XC3の\のXBCです。 この作業を取得するために一日のために試した後、私はあきらめて;-)
を頼むよ、私は任意のヘルプ Thxをに感謝
役立ちます:もしそうなら、それはあなたが印刷するときウムラウトが正しく表示されますよう、全く問題ではありません'u'G \ xfcrtel''はcodepoint-string(" Unicode文字列 ")であり、' u'G \ u00fcrtel''に相当します。 '' G \ xc3 \ xbcrtel'.decode( 'UTF-8') 'は' u'G \ u00fcrtel''を返します。デバッグでは、各ステップでデータがバイトまたはコードポイントの形式であるかどうか、またどちらか一方を変換するときは、どのエンコーディングが使用されているかを考慮する必要があります。 – wberry