2017-01-21 3 views
0

さて私は2番目のために負荷にいくつかのスタッフを必要とするサイトのcuz、ロードで要求に数日間しようとしていますし、私は私が必要とするデータに到達することができ、 は、まず、私がしようとしているをロードするためにページを待ちますPythonの要求

req = urllib.request.Request(url, headers={'User-Agent': 'Mozilla/5.0'}) 
html = urllib.request.urlopen(req) 
time.sleep(3) 
html.read() #even without this line it would give me the same resault. 
soup = BeautifulSoup(html, "lxml") 

これは機能しませんでした。ロード後にこれらの要素に到達する方法を見つける必要があります。 私はすでにSeleniumを試しましたが、リクエストやセレンに比べて遅いので接続がリモートコントロールなどで閉じられているバグがあります。解決策を見つける必要があります。ありがとうございます。 ありがとうございます!

+0

あなたが必要とするURLと出力を投稿してください。 –

答えて

2

JavaScriptはJavaScriptを使用していますか?もしそうなら、あなたは世界のすべての時間を待つことができます。あなたはヘッドレスブラウザを使用しており、何も手に入らないでしょう。つまり、JavaScriptやクライアントサイドのコードはロードされません。

あなたはSeleniumのようなものを使用することをお勧めします。それはあなたがやろうとしている作業を実際に行っているので遅いです。