2017-06-04 4 views
0

私はしばらく検索しましたが、役に立たないものは見つかりませんでした。 Paythonリストの文字列でこれらの16進コードを削除しようとしましたが、その実行方法がわかりません。彼らは文字列形式です! 私のデータから除いて(トランプTwitterはフェッチ):Pythonの文字列が 'president trump \ xe2 \ xe \ xe2 \ x80 \ x99s'のような16進コードを削除しました

tweets[7] 
'rt @ lindseygrahamsc : i support president trump\\xe2\\x80\\x99s desire to reenter the paris accord after the agreement becomes a better deal for america\\xe2\\x80\\xa6' 

はありがとうございました!

+0

あなたは16進コードを削除しますか、またはあなたは、彼らが変換できるかどうかを尋ねていますASCIIに? (これらの数字はすべて128より大きい数値であることに注意してください。標準のASCIIセットの一部ではありません) – THK

+0

この文字列の取得方法の詳細を提供していないので、お手伝いすることは困難です。 btw、おそらくあなたは、あなたがそれらを得るようにツイートをエンコードすることによって、あなたの問題の根に戻るべきです。 status.text.encode( "utf-8") – tagoma

+0

ありがとう!私はそれらを削除してプレーンテキストに集中したいので、その方向のいくつかの解決策は素晴らしいでしょう! – Squall

答えて

0

それが唯一のサブ文字列「\\x**」に動作し、この方法を試してみてください:

import re 
tweets = 'rt @ lindseygrahamsc : i support president trump\\xe2\\x80\\x99s desire to reenter the paris accord after the agreement becomes a better deal for america\\xe2\\x80\\xa6' 
re.sub(r'(\\x(.){2})', '',tweets) 

出力:

'rt @ lindseygrahamsc : i support president trumps desire to reenter the paris accord after the agreement becomes a better deal for america' 
関連する問題