2017-05-11 15 views
0

Webページから特定のデータを解析するのに役立つ人はいますか?ここにウェブページ上のコンテンツがあります。Pythonを使用してWebページからデータを解析する

{"sites":[{"id":"XX","name":"YY","url":"ZZ","username":"AA","password":"BB","siteId":"0"},{"id":"XX","name":"YY","url":"ZZ","username":"AA","password":"BB","siteId":"0"}]}

私は、コンテンツ全体からわずかIDが必要です。私たちはウェブページの内容で2回IDを持っていることに注意してください。だから私はウェブページからすべてのIDが必要です。ここでは、Webコンテンツをダンプするために書いたコードですが、必要なデータを解析できません。私を助けてください。

def test(ip): 
    url = 'http://%s/' % ip 
    response = urllib.urlopen(url) 
    webContent = response.read() 
    print webContent 

答えて

0

あなたのコンテンツは、JSON文書である、あなたはjson libraryとそれを解析し、Pythonオブジェクトとしてそれを使用することができます。

import json 

def test(ip): 
    url = 'http://%s/' % ip 
    response = urllib.urlopen(url) 
    webContent = response.read() 
    content = json.loads(webContent) 
    print([site['id'] for site in content['sites']]) 
+0

はありがとうございました。 IDは、[u'1 '、u'2']のように印刷され、IDの前に 'u'が表示されます。それらを取り除く方法はありますか? –

+0

これはPython2のUnicode文字列であるからです。気にしない場合は、strを使用して文字列に変更することができます。 コンテンツ['sites']]のサイトのprint([str(site ['id'])) –

関連する問題