2016-12-05 6 views
1

こんにちは皆、今日オンラインで賭けるサイトのように、一貫して変化しているウェブサイトからどのようにデータを掻き集めるのですか?私はこのコードを実行すると、私はPythonを使用して一貫して変化するウェブページの要素にアクセスする

import requests 
from bs4 import BeautifulSoup 

def ColorRequest(): 
    url = 'http://csgoroll.com/#/' # Could add a + pls str(pagesomething) to add on to the url so that it would update 
    sourcecode = requests.get(url) #requests the data from the site 
    plaintext = sourcecode.text #imports all of the data gathered 
    soup = BeautifulSoup(plaintext, 'html.parser') #This hold all of the data, and allows you to sort through all of the data, converts it 
    for links in soup.findAll(): 
     print(links) 

ColorRequest() 

を書いたページをアップするものではなく、私は、ページのHTML出力を得るが、私は、ページのロード後に表示されている要素を探しています。

経験豊富なPython開発者はこれまでにこの問題にぶつかり、経験の浅いプログラマーを助けてくれますか?

答えて

1

これを行うにはいくつかの方法があります。 Aviは、以下の質問でこれを行うために美しいスープでドライスクラップを使用する例を挙げています。

Web-scraping JavaScript page with Python

私はdryscrapeでの経験を持っていないが、あなたはまた、phantomJSのようなヘッドレスブラウザを使用してこのセレンwebdriverをを行うことができます。

0

このタイプのスクレイピングを行うための「直接的な」方法は次のとおりです。

通常、これらの「継続的に変化する」ウェブサイトはAJAX経由で更新されるため、実際に探しているのはウェブサイトのコンテンツを更新するための特定のリクエストです。

ウェブサイトを更新している間、あなたはfiddlerキャプチャへのトラフィックを使用することができ、その後、要求は1が(この場合は、おそらくオッズまたは何でも)あなたが必要とする有効な情報が含まれているを見つけます。あなたがそれを見つけたら、ただ要求をシミュレートし、必要な情報を抽出します。

関連する問題