2017-08-13 8 views
0

Raspberri PiのScrapyを使用して、最初の読み込み後にjavascriptで変更されたページをスクラップしようとしています。Rasbperry PiのスクラップとJavascriptサイト

私はドッカーとscrapinghub/splashをインストールして、ページをレンダリングする前にレンダリングしようとしましたが、SplashはまだARMをサポートしていません。ラズベリーパイのScrapyでjavascriptを使用してページをスクラップする他のオプションはありますか?

現在のところ、サイトの通常の治療リクエストを使用して、私はこのhtmlを取得します。これは、サイトが最初に読み込まれ、次にjavascriptがコンテンツ全体をレンダリングするためです。だから、前ページのソースが空になりますジャバスクリプト:これは移動するための方法、されていないhttps://www.sreality.cz/hledani/prodej/byty?region=brno

+0

https://github.com/voliveirajr/seleniumcrawler/blob/master/seleniumcrawler/spiders/seleniumcrawler_spider.pyで議論されているアプローチを試すことができます。 rasbperry piにPhantomJSブラウザを使用してください。 –

答えて

1

Srealityは、APIを使用しています。

<body class="notie8 notie9 lang-{{html.lang}}"> 
<!--<![endif]--> 
    <div loading-line></div> 

    <div page-layout> 
     <div ng-view></div> 
    </div> 
</body> 
</html> 

参考のために、私が言及していますサイトはありますか?あなたのURLには、https://www.sreality.cz/api/cs/v2/estates?category_main_cb=1&category_type_cb=1&per_page=20&region=brno&tms=1502631428897というAPIコールがあります(ブラウザの開発者ツールでXHRリクエストを探します)。

+0

私はこれを知らなかった、この助けをありがとう!簡単な質問ですが、APIがあることをどのように知っていましたか?私はいつも彼らがAPIを提供しているかどうかを知るためにウェブサイトと闘います – Svarto

+0

ブラウザの開発者ツールのネットワークタブに行き、XHRリクエストを探しているのは、通常、私がウェブサイトをスクラップしたいときに行う最初のことです。特にJavaScriptが関与していると思われるとき。 –

関連する問題