私は、複数のページを持つかもしれないユーザーコメントコメントを得るために、Pythonのスクラップを使用しています。コメントを表示するには、「もっと見る」をクリックする必要があります。次のページをスクラップするためにPythonのスクラップを使用するコメント
これは私がクロールするページへのリンクです:レビューが10以上のコメントがあれば、私は気付か https://en.drivy.com/car-rental/berlin/dacia-dokker-218119
、私は、その後のコメントを取得するために、リンク「詳細を参照してください」をクリックする必要があります。 私も気づか「を参照してくださいより多くの」URLリンクは、HTTPSです:私はhttpsに行くためにscrapyを使用する場合、しかし、//en.drivy.com/cars/218119/reviews?page=2 &のrel =次
://en.drivy.com/cars/218119/reviews?page=2 & rel = next、ウェブサイトからhttps:// en.drivy.com/carrental/berlin/dacia-dokker-218119にリダイレクトされます私は本当に次の10のコメントを得ることができません。 (ウェブサイトがクッキーやセッションIDを使用していて、新しい訪問として私の治療法を特定しているのだろうか)
私はpythonセレンを使ってウェブページを開いて「もっと見る」をクリックするとコメントを得ることができます。セレンは非常に遅く、私は代わりに傷病を使うことができたらいいですね。
誰でも私にこれを助けることができますか?少なくとも私に進む方向を教えてください。前もって感謝します。
お返事ありがとうございました。私は、あなたが示したヘッダーを設定してみました。 ただし、このエラーが表示されます 2017-10-10 16:24:45 [scrapy.downloadermiddlewares.retry] DEBUG:再試行(1回失敗):500内部サーバーエラー –
huahz
他のヘッダー(特にX-CSRFトークン)を追加しましたか? –
私はトークンを含めると、それは動作します!驚くばかり! – huahz