これは私のコードは、これまでのところです:Pythonを使用してWebページからIDとクラスを抽出する方法は?
import urllib2
with urllib2.urlopen("https://quora.com") as response:
html = response.read()
私は、Pythonに新しいですし、何とか私は今、どのようにWebページからのIDとクラスを抽出するために、Webページを取得することに成功していますか?
これは私のコードは、これまでのところです:Pythonを使用してWebページからIDとクラスを抽出する方法は?
import urllib2
with urllib2.urlopen("https://quora.com") as response:
html = response.read()
私は、Pythonに新しいですし、何とか私は今、どのようにWebページからのIDとクラスを抽出するために、Webページを取得することに成功していますか?
あなたはBeautifulSoupのような専用ライブラリを使ってhtmlコードを解析しようとするかもしれません。
これを行うより良い方法は、BeautifulSoup(bs4)ウェブスクレイピングライブラリを使用してリクエストすることです。
ピップを使用して、両方をインストールした後、あなたはように起動することができます。
import requests
from bs4 import BeautifulSoup
r = requests.get("http://quora.com")
soup = BeautifulSoup(r.content, "html.parser")
を特定のIDを持つ要素を見つけるには:「回答」クラスを持つすべての要素を検索するに
soup.find(id="your_id")
を:
soup.find_all(class_="Answer")
.get_text()
を使用すると、htmlタグを削除し、Python文字列oあなたのデータを整理することができます。
あなたは実際に私の友人は私にこの仕事を割り当てられ
from lxml import html
import requests
page = requests.get('http://google.com')
with open('/home/Desktop/test.txt','wb') as f :
f.write(page.content)
XML解析によりイースリーそれを行うことができます。 WebページからクラスとIDを抽出することは、クラス名またはID名を抽出することを意味します。 – ddvb
どんなコードスニペットも役立ちます! – ddvb