シンプルなWebページを取得するのはとても簡単です。 私はpython's manumal全体のサイトを取得するpython
import urllib2
response = urllib2.urlopen('http://python.org/')
html = response.read()
しかし、どのようにすべてのサイトを取得するために見ることができるように? 誰でも私にコードを教えてください。
シンプルなWebページを取得するのはとても簡単です。 私はpython's manumal全体のサイトを取得するpython
import urllib2
response = urllib2.urlopen('http://python.org/')
html = response.read()
しかし、どのようにすべてのサイトを取得するために見ることができるように? 誰でも私にコードを教えてください。
BeautifulSoupをサイトの解析に使用し、ドメイン外に出かけることがない限り、すべてのリンクに対してプロセスを繰り返します。
ダイナミックコンテンツを取得しようとすると複雑になりますが、それにつながるリンクはありません。
あなたは
あなたは、Webページ上のリンクを抽出し、あなたがしている場合を追跡することができますすでにそのページにアクセスしたかどうか、URLが同じサイトに属していないかどうかを確認して取得します。
あなたは、そのページのインデックスを作成するために必要な入れ子のレベルを覚えておく必要があります。それ以外の場合、取得しようとしているページは指数関数的に大きくなります
beautifulsoupは、このための素晴らしいツールです。 +1 – Endophage
ありがとう、私は今それをチェックします。 – Bogdan
@Bogdan:問題はありません。あなたがすでに取り出したものを取り出さないように注意してください。(ディスク上のページをサーバー上の相対的な位置に関して保存するだけで済ませることができます。ファイルが既にロードされている場合)。 – Tadeck