2011-07-12 4 views
-1

Google検索結果でキャッシュされたページを検索しようとしています。実際には私は今のところ2つの問題があります。私は通常、最初の10件の結果をダウンロードできますが、「次の」10ページに行くことはできません。私は正規表現を使用してページ内の次のコントロールを見つけ、そこから移動しようとしましたが、動作させることができませんでした。 しかし、私のもう一つの問題は、私のIPアドレスがGoogleによってブロックされ、キャッシュされた結果を見ることができなくなってしまうことです。だから私の考えに向かう1つの解決策は、URLリクエストを作成するためにプロキシを使用し、このプロキシをいくつかの間隔で更新することです。しかし、私はこの仕事をどうやって作るのか考えていません。私は解決策のためにウェブを検索しようとしましたが、私は良いものを考え出すことができませんでした。 私に助言を与えることができればとても幸せです。URLがPythonで異なるプロキシをリクエストしています

答えて

1

5th example?または3rd exampleですか?

+0

req = urllib2.request(url、none、headers)でurlリクエストを作成し、urllib2.urlopen(req).open()でページを取得しています。例ではオープナーを使用しています。すべてのURLリクエストがプロキシで行われるように定義する方法があります。多分それは簡単な音だが、私は多くのPythonプログラミングについて知らない。 – bahti

+0

[第4の例](http://docs.python.org/library/urllib2.html)を見てください - すべてのurlopen呼び出しに対してオープナーがインストールされています。 – mrbox

関連する問題