python(pycurl)でcurlを使用してサイトコンテンツをダウンロードしたいと思います。しかし、私はこれらのサイトの全文をサイトの一部にしたくない。私はテキスト全体をダウンロードするのにかかる時間を短縮したい。ありがとうございました。pycurlのテキストダウンロードコンテンツを制限する
1
A
答えて
2
あなたはpycurl
NOTEでそれを行う方法にthis questionを参照してください、あなたのHTTPリクエストでrelevantheadersを設定する必要があります。このだけ作品あなたの場合:
- オフセットデータを知っています(バイト単位)ここで、結果として必要なデータは
- です。Webサーバーでこれをサポートしています
0
ページの読み込みの遅延は、実際にはHTMLの実際のダウンロードではありません.HTMLはUnicodeテキストにすぎません。 HUGE実際のテキストとマークアップの量がページにないと、あまり保存されません。さらに、ページの実際のコンテンツを取得するには、とにかく<head>
全体をダウンロードする必要があります。
個人的に、私はこれを非同期的にアプローチします。 Twistedは、このタイプのアプローチのより一般的な提案の1つです。
関連する問題
- 1. BigQueryのグループ制限を制限する
- 2. 永久に実行されるマルチリクエストpycurl(無限ループ)
- 3. Pycurlは、
- 4. 制限のあるLDAPを制限する
- 5. iOSでUIScrollviewのバウンド制限を制限する
- 6. ユーザーあたりのカール制限を制限する
- 7. Django - 同じ値へのアクセスを制限するユーザ制限
- 8. Node.js複数のレート制限を使用するAPIレート制限
- 9. hrefのテキスト長制限を制限する方法
- 10. エラーのSynology NASにpycurlをインストールする
- 11. 実行時にPyCurlリクエストが無限にハングアップ
- 12. Windowsでのpycurlインストール
- 13. amazon s3を制限して予算を制限する
- 14. Pycurl to Jira json
- 15. セロリ+ SQS pycurlエラー
- 16. PyCurlはTypeError:
- 17. クリック数の制限、制限、無効化
- 18. が無制限のメモリ制限
- 19. webgl2データをpboからvboに制限するサイズ制限
- 20. Android:制限同期を制限する方法
- 21. UISwipeGestureRecognizerエリアを制限する
- 22. セッションユーザを制限するPHP
- 23. ドッカーロギングを制限する
- 24. データベースサイズを制限する
- 25. コンテキストメニューを制限する
- 26. スペースコンポーネントを制限する
- 27. WMSタイルエクステントを制限する
- 28. キーフレームを制限するFFMPEG
- 29. ページアクセスを制限する
- 30. uiscrollviewスクロールエリアを制限する
これは、Webリクエストの仕組みではありません。あなたはページを尋ねると、そのページを手に入れます。 – Amber
@Amberいいえ、それは彼らの仕事の仕方ではありません。一般的にはキムヴァイ – Kimvais
ですが、そうです。ファイルの特定のバイトオフセットをダウンロードするためのサポートがありますが、ファイルのダウンロードを分割したり、中断したダウンロードを再開するために設計された特定の*テキスト*を選択することはめったにありません。 – Amber