私は、次のWebサイトからオーストラリア証券取引所の企業によって行われた発表のための「ASXコード」をこすりしようとしています:http://www.asx.com.au/asx/statistics/todayAnns.doPythonを使用してソースコードを返さないウェブサイトをどうやって削り取るのですか?
これまでのところ、私は次のコードでBeautifulSoupを使って試してみました:
import requests
from bs4 import BeautifulSoup
response = requests.get('http://www.asx.com.au/asx/statistics/todayAnns.do')
parser = BeautifulSoup(response.content, 'html.parser')
print(parser)
しかし、これを印刷すると、手動でページに移動してページソースを表示したときと同じように印刷されません。私はいくつかのグーグルを行って、stackoverflowを見て、これは、HTMLコードを隠すページで実行されているJavascriptによると信じています。
しかし、私はこれを回避する方法を確信しています。どんな助けでも大歓迎です。
ありがとうございます。
あなたはSeleniumとタグ付けしましたので、試しましたか? –
私はセレンをどこから始めるべきか完全にはわかりません。私はここでボタンをクリックしてソースコードを提供する例を見つけました:https://stackoverflow.com/questions/8960288/get-page-generated-with-javascript-in-pythonしかし、私はボタンをクリックする必要はありません - 私はソースコードが必要です。私はしかし、検索を続けます。 @ cricket_007のリンクありがとう。 –
ウェブサイトは動的に生成されます。必要なデータを要求するためにAPIを使用したり見つけたりする以外、解決策は考えられません。 –