PythonのScrapyでSplashRequestを実行しているときに待機中の要素を追加する

私はPythonでScreamのためのSplashを使っていくつかの動的Webサイトを削り取ろうとしています。しかし、スプラッシュが特定のケースで完全なページが読み込まれるのを待たないことが分かります。この問題に対処するための猛烈な方法は、大量のwait時間（たとえば、以下のスニペットでは5秒）を追加することでした。ただし、これは非常に非効率的で、依然として特定のデータをロードできません（コンテンツのロードに5秒以上かかることがあります）。これらの要求を満たすことができる要素待機状態がありますか？PythonのScrapyでSplashRequestを実行しているときに待機中の要素を追加する

yield SplashRequest(
      url, 
      self.parse, 
      args={'wait': 5}, 
      'User-Agent':"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36", 
      } 
)

出典

2016-12-10 NightFury13

はい、そうするためのLuaスクリプトを書くことができます。そのような何か：スプラッシュ2.3前

function main(splash) 
    splash:set_user_agent(splash.args.ua) 
    assert(splash:go(splash.args.url)) 

    -- requires Splash 2.3 
    while not splash:select('.my-element') do 
    splash:wait(0.1) 
    end 
    return {html=splash:html()} 
end

あなたがsplash:evaljs('!document.querySelector(".my-element")')代わりのnot splash:select('.my-element')を使用することができます。

このスクリプトを変数（lua_script = """ ... """）に保存します。そして、あなたはこのようにリクエストを送信することができます。

yield SplashRequest(
    url, 
    self.parse, 
    endpoint='execute', 
    args={ 
     'lua_source': lua_script, 
     'ua': "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36" 
    } 
}

は、スプラッシュのLuaスクリプトを作成する方法の詳細については、スクリプトtutorialとreferenceを参照してください。

出典

2016-12-12 10:08:57

ソリューションに追加するには、上記のスクリプトを実行している間に "nil valueのインデックスを作成しようとしています"というLuaエラーが表示されていました。問題は、要素がまだレンダリングされていない場合、スプラッシュ：select（ '。my-element'） 'によって返された' nil'値に対して '：exists（）'を実行できないという問題でした。だから単に '：exists（）'の部分を取り除き、while splash：select（ '。my-element'）do''のループをチェックすることで問題が解決されました。 – NightFury13

良いキャッチ@ NightFury13！私はこの例を変えているので、将来この回答に来る人々はこの問題を起こさないだろう。 –

同様の要件があり、タイムアウトがあります。私の解決策は、上記のわずかな変更です：

function wait_css(splash, css, maxwait) 
    if maxwait == nil then 
     maxwait = 10  --default maxwait if not given 
    end 

    local i=0 
    while not splash:select(css) do 
     if i==maxwait then 
      break  --times out at maxwait secs 
     end 
     i=i+1 
     splash:wait(1)  --each loop has duration 1sec 
    end 
end

出典

2018-03-10 13:12:17 justint

PythonのScrapyでSplashRequestを実行しているときに待機中の要素を追加する

答えて

関連する問題