次のページをスクラップするためにPythonのスクラップを使用するコメント

私は、複数のページを持つかもしれないユーザーコメントコメントを得るために、Pythonのスクラップを使用しています。コメントを表示するには、「もっと見る」をクリックする必要があります。次のページをスクラップするためにPythonのスクラップを使用するコメント

これは私がクロールするページへのリンクです：レビューが10以上のコメントがあれば、私は気付か https://en.drivy.com/car-rental/berlin/dacia-dokker-218119

、私は、その後のコメントを取得するために、リンク「詳細を参照してください」をクリックする必要があります。私も気づか「を参照してくださいより多くの」URLリンクは、HTTPSです：私はhttpsに行くためにscrapyを使用する場合、しかし、//en.drivy.com/cars/218119/reviews?page=2 &のrel =次

：//en.drivy.com/cars/218119/reviews?page=2 & rel = next、ウェブサイトからhttps：// en.drivy.com/carrental/berlin/dacia-dokker-218119にリダイレクトされます私は本当に次の10のコメントを得ることができません。（ウェブサイトがクッキーやセッションIDを使用していて、新しい訪問として私の治療法を特定しているのだろうか）

私はpythonセレンを使ってウェブページを開いて「もっと見る」をクリックするとコメントを得ることができます。セレンは非常に遅く、私は代わりに傷病を使うことができたらいいですね。

誰でも私にこれを助けることができますか？少なくとも私に進む方向を教えてください。前もって感謝します。

出典

2017-10-10 huahz

ヘッダーは"Accept: */*;q=0.5, text/javascript, application/javascript, application/ecmascript, application/x-ecmascript"に設定する必要があります。コメントのテキストを含むJSオブジェクトをキャッチします。

yield Request("https://en.drivy.com/cars/218119/reviews?page=2&rel=next", parse = ..., ..., headers={'Accept': "*/*;q=0.5, text/javascript, application/javascript, application/ecmascript, application/x-ecmascript"})

出典

2017-10-10 07:06:03

お返事ありがとうございました。私は、あなたが示したヘッダーを設定してみました。ただし、このエラーが表示されます 2017-10-10 16:24:45 [scrapy.downloadermiddlewares.retry] DEBUG：再試行（1回失敗）：500内部サーバーエラー – huahz

他のヘッダー（特にX-CSRFトークン）を追加しましたか？ –

私はトークンを含めると、それは動作します！驚くばかり！ – huahz

次のページをスクラップするためにPythonのスクラップを使用するコメント

答えて

関連する問題