2012-02-20 15 views
0

私はlxmlを使用して、Webページから文字列を取得しています。以下のエラーが出ることなく抽出するデータの文字列を取得するにはどうすればよいですか?私はちょうどstr()を使って問題を解決できないと思う。 PythonでPython、lxmlおよび<type 'exceptions.UnicodeEncodeError'>

mystring = MySQLdb.escape_string(i.text_content()) 


(<type 'exceptions.UnicodeEncodeError'>, UnicodeEncodeError('ascii', u"\n\nEve Pownall\n\n \n \n \n \n  Eve Pownall\n\t (Author)\n\t\n  \u203a Visit Amazon's Eve Pownall Page\n  Find all the books, read about the author, and more.\n\n   See search results for this author \n  Are you an author?\n  Learn about Author Central\n  \n  \n \n \n\n \n  amznJQ.onReady('bylinePopover', function() {});\n \n\n\n (Author)\n\n\n\n\n\n\n\n\n\n\n", 75, 76, 'ordinal not in range(128)'), <traceback object at 0x7f225c99f050>) 
+0

この質問の可能性のある重複http://stackoverflow.com/questions/808275/decoding-problems-in-django-and-lxml –

答えて

0

あなたが明示的に良い既知のエンコーディング(UTF-8最も可能性が高い)で文字列をエンコードする必要があります。

さらに詳しい情報:

http://collective-docs.readthedocs.org/en/latest/troubleshooting/unicode.html

+0

私はユニコードを憎みます。それは決して理解できません。それは、それに対処する方法をきれいにする素晴らしいリンクでした。 – Tampa

関連する問題