私はウェブサイト(許可を得て)からレストランのリストを拝借しています。問題があります。ウェブサイトからのhtml pythonスクラップは、ソースコード内のhtmlとは異なります。サイト上のレストランの半分以下は、Pythonのhtmlにあります。これは私のコードは次のようになります。スクラップしたHTMLはソースコードとどのように違うのですか?
import requests
from bs4 import BeautifulSoup
from tempfile import TemporaryFile
import xlwt
url = 'https://www.example.com'
r = requests.get(url)
data = BeautifulSoup(r.text)
soup = data.find_all('span',{'class':'restaurant_name'})
print soup
今、私はそれがincovenientだけど、私は会社が私をさせないので、HTMLを表示することはできません。私は、あなたが一般的に、pythonでダウンロードしたhtmlがソースコードのものとどのように異なっているのか、そして私がそれについて何ができるのかを知っているかどうかは疑問です。
ありがとうございます!
、このいずれかをチェックし、あなたがこれを他にどのような方法を比較していますか?あなたのブラウザのDOMインスペクタを見ていますか?これはサイトの現在の状態*を示し、初期のソースは表示しません。サイトがAJAXを介してデータを読み込む場合、その2つのことはかなり異なる場合があります。 – deceze
レストランを動的に追加するためにJavascriptが採用される可能性はありますか? –
はいブラウザのインスペクタを見ています!私は違いがあることを知らなかった!サイトの現在の状態をダウンロードするにはどうすればよいですか? – titusflex