2011-06-21 1 views
1

python(pycurl)でcurlを使用してサイトコンテンツをダウンロードしたいと思います。しかし、私はこれらのサイトの全文をサイトの一部にしたくない。私はテキスト全体をダウンロードするのにかかる時間を短縮したい。ありがとうございました。pycurlのテキストダウンロードコンテンツを制限する

+0

これは、Webリクエストの仕組みではありません。あなたはページを尋ねると、そのページを手に入れます。 – Amber

+0

@Amberいいえ、それは彼らの仕事の仕方ではありません。一般的にはキムヴァイ – Kimvais

+0

ですが、そうです。ファイルの特定のバイトオフセットをダウンロードするためのサポートがありますが、ファイルのダウンロードを分割したり、中断したダウンロードを再開するために設計された特定の*テキスト*を選択することはめったにありません。 – Amber

答えて

2

あなたはpycurl

NOTEでそれを行う方法にthis questionを参照してください、あなたのHTTPリクエストでrelevantheadersを設定する必要があります。このだけ作品あなたの場合:

  1. オフセットデータを知っています(バイト単位)ここで、結果として必要なデータは
  2. です。Webサーバーでこれをサポートしています
0

ページの読み込みの遅延は、実際にはHTMLの実際のダウンロードではありません.HTMLはUnicodeテキストにすぎません。 HUGE実際のテキストとマークアップの量がページにないと、あまり保存されません。さらに、ページの実際のコンテンツを取得するには、とにかく<head>全体をダウンロードする必要があります。

個人的に、私はこれを非同期的にアプローチします。 Twistedは、このタイプのアプローチのより一般的な提案の1つです。

関連する問題