0
http://megabuy.vn/Default.aspxから、製品情報をスクラップしたいと思います。javascriptタグの下にあるタグを削るには?
私の解決方法は、ウェブサイトの構造に従ってウェブサイトを削ることです。だから最初は、一般カテゴリについてのすべてのリンクをスクラップしてから、より細かいサブカテゴリに移動してから、それぞれの特定の製品に移動しなければなりません。
私はトラブルのような一般的なカテゴリのすべてのリンクをこする持っている:ファンティエットバイヴァンフォン
- が
- が... をダ糞ニャチャンBEP
などを行うのですが
私は問題は、これらのリンクがJavaスクリプトタグの下にあることだと思います。ここで
は私のコードです:
from bs4 import BeautifulSoup
import requests
import re
def web_scrape(url):
web_connect = requests.get(url)
text = web_connect.text
soup = BeautifulSoup(text,"html.parser")
return soup
homepage = web_scrape("http://megabuy.vn/Default.aspx")
listgianhang = homepage.findAll("a", class_=re.compile("ContentPlaceholder"))
len(listgianhang)
私はその結果得た:0
ブラウザのページ構造を見て、リンクが にネストされていることを確認しました。その対処方法を知りたいのですか? –
clearlight