私のプロジェクトのためにCivic Commons Appsからデータを抽出しようとしています。私は必要なページのリンクを得ることができます。私は、リンクを開こうとする。しかし、私は「urlopenエラーが[errnoは-2]名前またはサービスが知られていない」を取得Python Web Scraping - urlopenエラー[Errno -2]名前またはサービスがわからない
ウェブこするのpythonコード:
:私は次のエラーを取得するfrom bs4 import BeautifulSoup
from urlparse import urlparse, parse_qs
import re
import urllib2
import pdb
base_url = "http://civiccommons.org"
url = "http://civiccommons.org/apps"
page = urllib2.urlopen(url)
soup = BeautifulSoup(page.read())
list_of_links = []
for link_tag in soup.findAll('a', href=re.compile('^/civic-function.*')):
string_temp_link = base_url+link_tag.get('href')
list_of_links.append(string_temp_link)
list_of_links = list(set(list_of_links))
list_of_next_pages = []
for categorized_apps_url in list_of_links:
categorized_apps_page = urllib2.urlopen(categorized_apps_url)
categorized_apps_soup = BeautifulSoup(categorized_apps_page.read())
last_page_tag = categorized_apps_soup.find('a', title="Go to last page")
if last_page_tag:
last_page_url = base_url+last_page_tag.get('href')
index_value = last_page_url.find("page=") + 5
base_url_for_next_page = last_page_url[:index_value]
for pageno in xrange(0, int(parse_qs(urlparse(last_page_url).query)['page'][0]) + 1):
list_of_next_pages.append(base_url_for_next_page+str(pageno))
else:
list_of_next_pages.append(categorized_apps_url)
urllib2.urlopen(categorized_apps_url)
File "/usr/lib/python2.7/urllib2.py", line 126, in urlopen
return _opener.open(url, data, timeout)
File "/usr/lib/python2.7/urllib2.py", line 400, in open
response = self._open(req, data)
File "/usr/lib/python2.7/urllib2.py", line 418, in _open
'_open', req)
File "/usr/lib/python2.7/urllib2.py", line 378, in _call_chain
result = func(*args)
File "/usr/lib/python2.7/urllib2.py", line 1207, in http_open
return self.do_open(httplib.HTTPConnection, req)
File "/usr/lib/python2.7/urllib2.py", line 1177, in do_open
raise URLError(err)
urllib2.URLError: <urlopen error [Errno -2] Name or service not known>
私はurlopenを実行する際に何か特別なことをする必要がありますか?なぜなら、私が得るhttpリンクには問題がないからです。
[編集] セカンドランで、私は次のエラーました:
File "/usr/lib/python2.7/urllib2.py", line 126, in urlopen
return _opener.open(url, data, timeout)
File "/usr/lib/python2.7/urllib2.py", line 400, in open
response = self._open(req, data)
File "/usr/lib/python2.7/urllib2.py", line 418, in _open
'_open', req)
File "/usr/lib/python2.7/urllib2.py", line 378, in _call_chain
result = func(*args)
File "/usr/lib/python2.7/urllib2.py", line 1207, in http_open
return self.do_open(httplib.HTTPConnection, req)
File "/usr/lib/python2.7/urllib2.py", line 1177, in do_open
raise URLError(err)
同じコードは、私の友人のMacに細かい動作しますが、私のUbuntu 12.04に失敗しました。
また、scrapper wikiでコードを実行しようとしましたが、正常に終了しました。しかし、いくつかのURLが不足していた(macと比較して)。これらの行動には何らかの理由がありますか?
エラーの時点で 'categorized_apps_url'の値は何ですか? – kojiro
また、この種のコメントはしばしば迷惑であると考えられますが、[httplib2](http://code.google.com/p/httplib2/)または[要求]を使用すると'urllib2'ではなくhttp://docs.python-requests.org/ja/latest/index.html)を参照してください。 httpで作業するためのより完全な機能を提供します。 – kojiro
あなたのスクリプトはそのまま私のコンピュータから正常に動作します。私はPython 2.7でMacを使い、BeautifulSoup 3.2と4.0の両方で試してみました。どちらの場合も、69のメインリンクと117の次のページリンクのリストを返します。私はそれがPythonをブロックしているあなたのシステム上の何かであると考えています。あなたはそれらのURLに直接pingを試みましたか?おそらくあなたのスクリプトをブロックしているウイルス対策ソフトウェアがありますか? –