2017-06-08 3 views
0

を解読することはできません、ここで(コンソールに出力ファイル/に書き込まれた)私は取得しています正確な応答の一部Scrapy経由でAjaxリクエストをエミュレート - 私は正常に私のコードでAjaxリクエストをエミュレートしていますUnicodeの応答

があります\ u003ctr \ u003e \ u003ctd class = \ "box_pro_high1 \" style = \ "幅:166px;高さ:302px; \" \ u003e \ r \ n \ u003cdiv align = \ "center \" \ u003e \ r \ n \ u003cdiv = ""幅:160px;高さ:100px;ディスプレイ:テーブルセル;縦方向アライメント:中;テキスト配列:中央; \ "\ u003e \ r \ n \ u003ca href =/adapters-connectors/sma-ra-8906/sma390-8153/pd/\ "rel = \" pd.aspx?\ pid = 8153 \ fid = 8906 \ cid = WES1863229926N \ pcr = WES596880305N \ Path = hJhp9Eo4i4SmypehwrGDk1dSIV1a%2fzDdQ39QdmWB6NLz%2bOfhVWXfF%2buXHGazJfL b25nPLAnzP5cA1EMeQ6IUDQMZmGxNYGTr8ARSiPUbiPN8GaSYHamQH9%2bSCQaRu3yY8Nv8%2fB75yy4UdDKkWwfIpY9zTNKSLx0anQ%2fNUrFOtGvph5cABhGlLBWHi%2fFJQEXw4​​P9%2bLdS%2fn1Q%3D \ "クラス= \ "tx_3 \" \のu003eの\ Rは\ Nの\ rをする\ n \のu003cimgデータオリジナル= \"/prodimages/section7_th/sma390.jpg \ "style = \" max-height:100px; SMA R/A "クラス="遅延 "src =" \ "/ \ u003e \ r \ n \ u003c/a style = \ "height:30px; \" \ u003e \ r \ n \ r \ n \ u003ca href = \ "\ u003e \ r \ n \ u003c/div \ u003e \ r \ n \ u003cdivクラス\ "/アンテナ・コネクタ・アクセサリー/アダプタ、コネクタ/ SMA-RA-8906/sma390-8153/PD/\"

私はBeautifulSoup/lxmlのに渡ししようとしていますが、それは(当然)が失敗した。

http://www.online-toolz.com/tools/text-unicode-entities-convertor.php

「デコード」(私はそれが正しい用語です確認していない)ワンクリックで、この文字列への:私はこのサイトを発見したシンプルなGoogle検索経由

私がしたい正確に何である

<img data-original="/prodimages/section7_th/sma390.jpg" style="max-height:100px; max-width:100px;" border="0" alt="SMA390 SMA R/A" class="lazy" src=""/> 
    </a> 
</div> 
<div class="familyheader" style="height:30px;"> 

    <a href="/antennas-connectors-accessories/adaptors-connectors/sma-r-a-8906/sma390-8153/pd/" 

。しかし、私はこの動作をPythonでエミュレートすることはできません。

私はord()、decode()などの使用を試みましたが、解決できないようです。

答えて

1

これはUnicodeは文字列をエスケープしている、あなたは、単に読みやすいHTMLに変換することができます:

s = "\u003ctr\u003e\u003c ......." 
s = s.decode('unicode-escape') 

今、あなたはbeautifulsoupまたはscrapyのセレクタで使用する正しい応答としてs文字列を扱うことができます。 python3のため

s = str.encode(s) 
+0

Unfortunetelyそれがなくても簡単です。ユニコード文字を持つstrです。 'str'オブジェクトに属性 'decode'がありません –

+0

申し訳ありませんが、私はpython3のために考えていませんでした。更新された回答を確認してください – eLRuLL

+0

私は理由は分かりませんが、 's.encode().deode( 'unicode-escape')' –

関連する問題