2012-04-18 16 views
0

シンプルなWebページを取得するのはとても簡単です。 私はpython's manumal全体のサイトを取得するpython

import urllib2 
response = urllib2.urlopen('http://python.org/') 
html = response.read() 

しかし、どのようにすべてのサイトを取得するために見ることができるように? 誰でも私にコードを教えてください。

答えて

1

BeautifulSoupをサイトの解析に使用し、ドメイン外に出かけることがない限り、すべてのリンクに対してプロセスを繰り返します。

ダイナミックコンテンツを取得しようとすると複雑になりますが、それにつながるリンクはありません。

+1

beautifulsoupは、このための素晴らしいツールです。 +1 – Endophage

+1

ありがとう、私は今それをチェックします。 – Bogdan

+0

@Bogdan:問題はありません。あなたがすでに取り出したものを取り出さないように注意してください。(ディスク上のページをサーバー上の相対的な位置に関して保存するだけで済ませることができます。ファイルが既にロードされている場合)。 – Tadeck

0

あなたは

あなたは、Webページ上のリンクを抽出し、あなたがしている場合を追跡することができますすでにそのページにアクセスしたかどうか、URLが同じサイトに属していないかどうかを確認して取得します。

あなたは、そのページのインデックスを作成するために必要な入れ子のレベルを覚えておく必要があります。それ以外の場合、取得しようとしているページは指数関数的に大きくなります

関連する問題