URLを開いてPythonで情報を抽出する方法

私はGoogleの学者情報を抽出するためのウェブスクレイプを作成しました。しかし、urllib2 pr要求などの便利なツールは失敗しました。そして、それは私に503エラーコードを与えました。URLを開いてPythonで情報を抽出する方法

そして私は情報を抽出する別の方法を探しています。可能であれば、ブラウズでURLを開き、情報を抽出することができます。例えば

、それがリンクである：

'http://scholar.google.com/citations?user=lTCxlGYAAAAJ&hl=en'

そして、どのようになど、H-インデックスを取得に進むために？

出典

2016-11-08 Daniel

http://docs.python-guide.org/en/latest/scenarios/scrape/ – SteveJ

いいえ、それは動作しません。まだ "503"エラー。 – Daniel

Google Scholarのように、頻繁にクエリを実行する、または自動化されたように見えるクライアントは、一時的に（503個のエラーコードを使用して）禁止されています。あなたはたぶん頻繁に質問した後、またはあなたがスクリプトから実行していると思っているため、おそらく一時的に禁止されています。 Cookieを使用して、1つのセッション内で複数のクエリを実行できる場合があります。または禁止が解除されるまで待つか、試行の間に待つか、スクリプトがWebブラウザのように見えるようにコードを記述します（クエリで送信する 'userAgent'文字列を変更します）。

「google scholar 503」でこのトピックに関する多くの情報をGoogle検索してください（これはすべてです）。

も、このトピックを参照してください：503 error when trying to access Google Patents using python

出典

2016-11-08 22:27:41

さて、私は実際にそれについていくつかの研究をしましたが、有用な解決策はほとんど見つかりませんでした。 – Daniel

あなたは元の質問にあなたが調査、発見、試したことなどを含める必要があります。たとえば、私がリンクしているページの回答とコメントでソリューションを試しましたか？彼らは失敗しましたか？再試行後のヘッダーを読んだことがありますか？あなたのコードを私たちに教えてください。 –

URLを開いてPythonで情報を抽出する方法

答えて

関連する問題