2016-10-29 7 views
0

これは私のコードは、これまでのところです:Pythonを使用してWebページからIDとクラスを抽出する方法は?

import urllib2 
with urllib2.urlopen("https://quora.com") as response: 
    html = response.read() 

私は、Pythonに新しいですし、何とか私は今、どのようにWebページからのIDとクラスを抽出するために、Webページを取得することに成功していますか?

答えて

0

あなたはBeautifulSoupのような専用ライブラリを使ってhtmlコードを解析しようとするかもしれません。

+0

XML解析によりイースリーそれを行うことができます。 WebページからクラスとIDを抽出することは、クラス名またはID名を抽出することを意味します。 – ddvb

+0

どんなコードスニペットも役立ちます! – ddvb

0

これを行うより良い方法は、BeautifulSoup(bs4)ウェブスクレイピングライブラリを使用してリクエストすることです。

ピップを使用して、両方をインストールした後、あなたはように起動することができます。

import requests 
from bs4 import BeautifulSoup 

r = requests.get("http://quora.com") 
soup = BeautifulSoup(r.content, "html.parser") 

を特定のIDを持つ要素を見つけるには:「回答」クラスを持つすべての要素を検索するに

soup.find(id="your_id") 

を:

soup.find_all(class_="Answer") 

.get_text()を使用すると、htmlタグを削除し、Python文字列oあなたのデータを整理することができます。

0

あなたは実際に私の友人は私にこの仕事を割り当てられ

from lxml import html 
import requests 
page = requests.get('http://google.com') 
with open('/home/Desktop/test.txt','wb') as f : 
    f.write(page.content) 
関連する問題