2010-12-18 3 views
0

ウェブページ上のすべてのURLを調べて、urllib2で個々の変数に保存するには?ウェブページ上のすべてのURLを探し、それをurllib2で個々の変数に保存するには?

+0

なぜ個々の変数に格納するのですか?何らかのコレクションが正しいデータ構造である「リスト」のように聞こえる。 –

+0

の可能な複製は何ですか?[pythonを使用してウェブページ上のURLのリストを抽出する簡単な方法は何ですか?](http://stackoverflow.com/questions/4139989/what-is-a-simple-way-to-extract-ウェブページ上でのURLのリスト(リスト) –

答えて

1

html parserでHTMLを解析し、すべてを見つける(例えば肌触りスープのfindAll()メソッドを使用して)<a>タグとそのhref属性を確認してください。

ハイパーリンクでなくてもページ内のすべてのURLを検索する場合は、simpleからridiculously insaneまでの正規表現を使用できます。

0

あなたはurllib2だけでは実行しません。あなたが探しているのは、WebページのURLを解析することです。 urllib2を使って最初のページを取得し、その内容を読んだ後、Beautifulsoupのようなパーサーに渡すか、他のポスターが説明されているように、ページの内容を正規表現で検索することもできます。

0

urllib2で未処理のhtmlをダウンロードしてから、簡単に検索することができます。簡単な方法があるかもしれませんが、これを行うことができます:

1:ソースコードをダウンロードしてください。
2:文字列ライブラリを使用してリストに分割します。
3:各セクションの最初の7文字を検索 - >
4:最初の7文字がhttp://の場合は、変数に書き込みます。

なぜ別の変数が必要なのですか? list.append(URL_YOU_JUST_FOUND)を使用して、別のURLが見つかるたびにそれらをすべてリストに保存する方が簡単ではないでしょうか?

関連する問題