2017-10-10 18 views
0

私は、複数のページを持つかもしれないユーザーコメントコメントを得るために、Pythonのスクラップを使用しています。コメントを表示するには、「もっと見る」をクリックする必要があります。次のページをスクラップするためにPythonのスクラップを使用するコメント

これは私がクロールするページへのリンクです:レビューが10以上のコメントがあれば、私は気付か https://en.drivy.com/car-rental/berlin/dacia-dokker-218119

、私は、その後のコメントを取得するために、リンク「詳細を参照してください」をクリックする必要があります。 私も気づか「を参照してくださいより多くの」URLリンクは、HTTPSです:私はhttpsに行くためにscrapyを使用する場合、しかし、//en.drivy.com/cars/218119/reviews?page=2 &のrel =次

://en.drivy.com/cars/218119/reviews?page=2 & rel = next、ウェブサイトからhttps:// en.drivy.com/carrental/berlin/dacia-dokker-218119にリダイレクトされます私は本当に次の10のコメントを得ることができません。 (ウェブサイトがクッキーやセッションIDを使用していて、新しい訪問として私の治療法を特定しているのだろうか)

私はpythonセレンを使ってウェブページを開いて「もっと見る」をクリックするとコメントを得ることができます。セレンは非常に遅く、私は代わりに傷病を使うことができたらいいですね。

誰でも私にこれを助けることができますか?少なくとも私に進む方向を教えてください。前もって感謝します。

答えて

0

ヘッダーは"Accept: */*;q=0.5, text/javascript, application/javascript, application/ecmascript, application/x-ecmascript"に設定する必要があります。コメントのテキストを含むJSオブジェクトをキャッチします。

yield Request("https://en.drivy.com/cars/218119/reviews?page=2&rel=next", parse = ..., ..., headers={'Accept': "*/*;q=0.5, text/javascript, application/javascript, application/ecmascript, application/x-ecmascript"})

+0

お返事ありがとうございました。私は、あなたが示したヘッダーを設定してみました。 ただし、このエラーが表示されます 2017-10-10 16:24:45 [scrapy.downloadermiddlewares.retry] DEBUG:再試行(1回失敗):500内部サーバーエラー – huahz

+0

他のヘッダー(特にX-CSRFトークン)を追加しましたか? –

+0

私はトークンを含めると、それは動作します!驚くばかり! – huahz

関連する問題