2016-11-08 11 views
0

私はGoogleの学者情報を抽出するためのウェブスクレイプを作成しました。しかし、urllib2 pr要求などの便利なツールは失敗しました。そして、それは私に503エラーコードを与えました。URLを開いてPythonで情報を抽出する方法

そして私は情報を抽出する別の方法を探しています。可能であれば、ブラウズでURLを開き、情報を抽出することができます。例えば

、それがリンクである:

'http://scholar.google.com/citations?user=lTCxlGYAAAAJ&hl=en' 

そして、どのようになど、H-インデックスを取得に進むために?

+0

http://docs.python-guide.org/en/latest/scenarios/scrape/ – SteveJ

+0

いいえ、それは動作しません。まだ "503"エラー。 – Daniel

答えて

0

Google Scholarのように、頻繁にクエリを実行する、または自動化されたように見えるクライアントは、一時的に(503個のエラーコードを使用して)禁止されています。あなたはたぶん頻繁に質問した後、またはあなたがスクリプトから実行していると思っているため、おそらく一時的に禁止されています。 Cookieを使用して、1つのセッション内で複数のクエリを実行できる場合があります。または禁止が解除されるまで待つか、試行の間に待つか、スクリプトがWebブラウザのように見えるようにコードを記述します(クエリで送信する 'userAgent'文字列を変更します)。

「google scholar 503」でこのトピックに関する多くの情報をGoogle検索してください(これはすべてです)。

も、このトピックを参照してください:503 error when trying to access Google Patents using python

+0

さて、私は実際にそれについていくつかの研究をしましたが、有用な解決策はほとんど見つかりませんでした。 – Daniel

+0

あなたは元の質問にあなたが調査、発見、試したことなどを含める必要があります。たとえば、私がリンクしているページの回答とコメントでソリューションを試しましたか?彼らは失敗しましたか?再試行後のヘッダーを読んだことがありますか?あなたのコードを私たちに教えてください。 –

関連する問題