全体のサイトを取得するpython

シンプルなWebページを取得するのはとても簡単です。私はpython's manumal 全体のサイトを取得するpython

import urllib2 
response = urllib2.urlopen('http://python.org/') 
html = response.read()

しかし、どのようにすべてのサイトを取得するために見ることができるように？誰でも私にコードを教えてください。

2012-04-18 Bogdan

BeautifulSoupをサイトの解析に使用し、ドメイン外に出かけることがない限り、すべてのリンクに対してプロセスを繰り返します。

ダイナミックコンテンツを取得しようとすると複雑になりますが、それにつながるリンクはありません。

2012-04-18 22:14:35 Tadeck

beautifulsoupは、このための素晴らしいツールです。 +1 – Endophage

ありがとう、私は今それをチェックします。 – Bogdan

@Bogdan：問題はありません。あなたがすでに取り出したものを取り出さないように注意してください。（ディスク上のページをサーバー上の相対的な位置に関して保存するだけで済ませることができます。ファイルが既にロードされている場合）。 – Tadeck

あなたは

あなたは、Webページ上のリンクを抽出し、あなたがしている場合を追跡することができますすでにそのページにアクセスしたかどうか、URLが同じサイトに属していないかどうかを確認して取得します。

あなたは、そのページのインデックスを作成するために必要な入れ子のレベルを覚えておく必要があります。それ以外の場合、取得しようとしているページは指数関数的に大きくなります

2012-04-18 22:18:16 Kartik

答えて