pycurlのテキストダウンロードコンテンツを制限する

python（pycurl）でcurlを使用してサイトコンテンツをダウンロードしたいと思います。しかし、私はこれらのサイトの全文をサイトの一部にしたくない。私はテキスト全体をダウンロードするのにかかる時間を短縮したい。ありがとうございました。pycurlのテキストダウンロードコンテンツを制限する

出典

2011-06-21 manofsins

これは、Webリクエストの仕組みではありません。あなたはページを尋ねると、そのページを手に入れます。 – Amber

@Amberいいえ、それは彼らの仕事の仕方ではありません。一般的にはキムヴァイ – Kimvais

ですが、そうです。ファイルの特定のバイトオフセットをダウンロードするためのサポートがありますが、ファイルのダウンロードを分割したり、中断したダウンロードを再開するために設計された特定の*テキスト*を選択することはめったにありません。 – Amber

あなたはpycurl

NOTEでそれを行う方法にthis questionを参照してください、あなたのHTTPリクエストでrelevant headersを設定する必要があります。このだけ作品あなたの場合：

オフセットデータを知っています（バイト単位）ここで、結果として必要なデータは
です。Webサーバーでこれをサポートしています

出典

2011-06-21 07:02:24 Kimvais

ページの読み込みの遅延は、実際にはHTMLの実際のダウンロードではありません.HTMLはUnicodeテキストにすぎません。 HUGE実際のテキストとマークアップの量がページにないと、あまり保存されません。さらに、ページの実際のコンテンツを取得するには、とにかく<head>全体をダウンロードする必要があります。

個人的に、私はこれを非同期的にアプローチします。 Twistedは、このタイプのアプローチのより一般的な提案の1つです。

出典

2011-06-21 07:14:45 cwallenpoole

pycurlのテキストダウンロードコンテンツを制限する

答えて

関連する問題