2012-07-23 21 views
7

私のプロジェクトのためにCivic Commons Appsからデータを抽出しようとしています。私は必要なページのリンクを得ることができます。私は、リンクを開こうとする。しかし、私は「urlopenエラーが[errnoは-2]名前またはサービスが知られていない」を取得Python Web Scraping - urlopenエラー[Errno -2]名前またはサービスがわからない

ウェブこするのpythonコード:

:私は次のエラーを取得する

from bs4 import BeautifulSoup 
from urlparse import urlparse, parse_qs 
import re 
import urllib2 
import pdb 

base_url = "http://civiccommons.org" 
url = "http://civiccommons.org/apps" 
page = urllib2.urlopen(url) 
soup = BeautifulSoup(page.read()) 

list_of_links = [] 

for link_tag in soup.findAll('a', href=re.compile('^/civic-function.*')): 
    string_temp_link = base_url+link_tag.get('href') 
    list_of_links.append(string_temp_link) 

list_of_links = list(set(list_of_links)) 

list_of_next_pages = [] 
for categorized_apps_url in list_of_links: 
    categorized_apps_page = urllib2.urlopen(categorized_apps_url) 
    categorized_apps_soup = BeautifulSoup(categorized_apps_page.read()) 

    last_page_tag = categorized_apps_soup.find('a', title="Go to last page") 
    if last_page_tag: 
     last_page_url = base_url+last_page_tag.get('href') 
     index_value = last_page_url.find("page=") + 5 
     base_url_for_next_page = last_page_url[:index_value] 
     for pageno in xrange(0, int(parse_qs(urlparse(last_page_url).query)['page'][0]) + 1): 
     list_of_next_pages.append(base_url_for_next_page+str(pageno)) 

    else: 
     list_of_next_pages.append(categorized_apps_url) 

urllib2.urlopen(categorized_apps_url) 
    File "/usr/lib/python2.7/urllib2.py", line 126, in urlopen 
    return _opener.open(url, data, timeout) 
    File "/usr/lib/python2.7/urllib2.py", line 400, in open 
    response = self._open(req, data) 
    File "/usr/lib/python2.7/urllib2.py", line 418, in _open 
    '_open', req) 
    File "/usr/lib/python2.7/urllib2.py", line 378, in _call_chain 
    result = func(*args) 
    File "/usr/lib/python2.7/urllib2.py", line 1207, in http_open 
    return self.do_open(httplib.HTTPConnection, req) 
    File "/usr/lib/python2.7/urllib2.py", line 1177, in do_open 
    raise URLError(err) 
urllib2.URLError: <urlopen error [Errno -2] Name or service not known> 

私はurlopenを実行する際に何か特別なことをする必要がありますか?なぜなら、私が得るhttpリンクには問題がないからです。

[編集] セカンドランで、私は次のエラーました:

File "/usr/lib/python2.7/urllib2.py", line 126, in urlopen 
    return _opener.open(url, data, timeout) 
    File "/usr/lib/python2.7/urllib2.py", line 400, in open 
    response = self._open(req, data) 
    File "/usr/lib/python2.7/urllib2.py", line 418, in _open 
    '_open', req) 
    File "/usr/lib/python2.7/urllib2.py", line 378, in _call_chain 
    result = func(*args) 
    File "/usr/lib/python2.7/urllib2.py", line 1207, in http_open 
    return self.do_open(httplib.HTTPConnection, req) 
    File "/usr/lib/python2.7/urllib2.py", line 1177, in do_open 
    raise URLError(err) 

同じコードは、私の友人のMacに細かい動作しますが、私のUbuntu 12.04に失敗しました。

また、scrapper wikiでコードを実行しようとしましたが、正常に終了しました。しかし、いくつかのURLが不足していた(macと比較して)。これらの行動には何らかの理由がありますか?

+0

エラーの時点で 'categorized_apps_url'の値は何ですか? – kojiro

+2

また、この種のコメントはしばしば迷惑であると考えられますが、[httplib2](http://code.google.com/p/httplib2/)または[要求]を使用すると'urllib2'ではなくhttp://docs.python-requests.org/ja/latest/index.html)を参照してください。 httpで作業するためのより完全な機能を提供します。 – kojiro

+0

あなたのスクリプトはそのまま私のコンピュータから正常に動作します。私はPython 2.7でMacを使い、BeautifulSoup 3.2と4.0の両方で試してみました。どちらの場合も、69のメインリンクと117の次のページリンクのリストを返します。私はそれがPythonをブロックしているあなたのシステム上の何かであると考えています。あなたはそれらのURLに直接pingを試みましたか?おそらくあなたのスクリプトをブロックしているウイルス対策ソフトウェアがありますか? –

答えて

4

コードは私のMacとお友達のMacで動作します。 Ubuntu 12.04サーバーの仮想マシンインスタンスからうまく動作します。あなたの特定の環境には明らかに何かがあります - あなたのOS(Ubuntu Desktop?)やネットワークは、それを駄目にしています。たとえば、私のホームルータのデフォルト設定では、x秒間に同じドメインへのコール数が抑制されます。これをオフにしなかった場合、この種の問題が発生する可能性があります。それはいくつかの事柄になる可能性があります。

この段階では、コードをリファクタリングしてURLErrorをキャッチし、再試行のために問題のあるURLを設定することをお勧めします。また、いくつかの再試行後にエラーが発生した場合は、ログ/印刷エラーが発生します。たぶんエラーの間にあなたの呼び出し時間をいくつかのコードをスローします。あなたのスクリプトがただちに失敗するよりも優れていて、それが問題の原因となっている特定のURLかタイミングの問題かどうかのフィードバックを得るでしょう(x番号urlopenの呼び出し後に失敗するか、x number of urlopenはマイクロ秒/秒の量で呼び出します)。それがタイミングの問題であれば、ループに単純なtime.sleep(1)が挿入されている可能性があります。

4

SyncMasterは、

私は最近、私はしばらくしてプレイしていない古いUbuntuのボックスの上にジャンプした後、同じ問題に遭遇しました。この問題は、マシン上のDNS設定のために実際に発生します。私はあなたのDNS設定(/etc/resolv.confとnameserver 8.8.8.8を追加してください)を確認してから、もう一度やり直すことを強くお勧めします。

関連する問題