ウェブページからのデータのクロールに関する質問があります。一部のサイトではリクエストに制限があります。このような状況ではどうすればクロールできますか?制限付きウェブページのクロール
答えて
。
セキュリティソリューションを使用しているWebページでは、新しいセッションを取得する際にtorを使用してIPアドレスを変更することができます。
しかし、あなたが意味する場合、サイトはブラウザをシミュレートする「セレン」を使用することができ、あなたがそれらを生成することができないことをいくつかのトークンを持っています。何を求めていることである場合
私はあなたを礼拝する!私の人生を救ったのはとても素晴らしかった.... <3 –
サイトをクロールすると、サイトへのリクエストが多すぎるため、料金が制限されることがあります。たとえば、別の要求をする前に、私のサイトであなたをブロックすることがあります。これらの制限は、サイトと要求の回数と頻度に応じて変わります。
これらの制限を回避する方法の1つは、言語スリープメソッドを使用してリクエストを少し待つことです。 Pythonでは、これはtime.sleep(10)
です。
まだブロックされている場合は、再試行期間を増やして禁止時間を調整できます。たとえば、5秒間待ってからもう一度やり直す(ブロックする)、10秒待ってからもう一度やり直す(ブロックする)、20秒待ってからもう一度やり直す(ブロックする)、40秒待つあきらめたいと思う限界に達するか、サーバーが要求をうまくやり遂げることができるようになるまで、それを続けます。これは、HTMLファイル内のタグを選択するためのCSS-セレクタを使用しています
:あなたは "断片的" と呼ばれる人気のPythonのフレームワークを使用することができ、簡単なウェブスクラップ用
- 1. 制限付きファイルオプション
- 2. 制限付きボルツマンマシン
- 3. 制限付きオートコンプリート
- 4. 制限付きデータストアクエリ
- 5. 制限付きレルムクエリ
- 6. 制限付きアクセス
- 7. Cognitoの制限付きDynamoDB
- 8. C#制限付きのインクルード
- 9. Rails 3制限付きオブジェクト
- 10. シンタックスエラー、制限句付き
- 11. 制限付きマルチFQLクエリ
- 12. 制限付きMLE with Python
- 13. S3制限付きバケットプログレッシブダウンロード
- 14. JPA:制限付きマルチレベルフェッチ
- 15. 制限付きグループ化
- 16. Yii2制限付きAccessControlFilterロジック
- 17. BLE制限付きアクセス
- 18. 制限付きKubernetesダッシュボード?
- 19. ベクトル制限付きクワッド
- 20. Odoo。制限付きドロップダウン
- 21. Cakephp 3 - 制限付きキャッシュクエリ
- 22. 制限付きSQLソート?
- 23. Devise/CanCan - 制限付きコンテンツ
- 24. 制限付きの制約タイプとタイプファミリーを '限定された'制約付きで使用する
- 25. 制限付きユーザーのClickOnce展開
- 26. スタティックコンテンツスクロール制限付きのAndroid NestedScrollView
- 27. 制限外の下付き文字
- 28. 制限付きアプリのアプリストアレビュー - iOS
- 29. Pythonの制限付き最適化
- 30. ggplot2、ファセット付きgeom_barのy制限
「私はそれを行うのですかどのように、robots.txtファイルを回避したいですか?」答えは、「その制限は理由があります:Webクローラーを所属していない地域から守ることです」それがあなたの質問ではないなら、あなたは何をしたいのか、そしてなぜそれが必要かについてはっきりしている必要があります。あなたが行った研究とあなたが問題を解決しようとしたことを追加してください。 – JBH