urlopen not returningなしURLが誤って入力されたときにオブジェクト

私は現在、Ryan MitchellのPythonによるWeb Scrapingを行っています。彼はエラー処理について語っ第一章では、彼は言う：urlopen not returningなしURLが誤って入力されたときにオブジェクト

サーバーが全く見つからない場合（たとえば、サイトがダウンした、またはURL を入力ミスしていた場合）、Noneオブジェクトを返しますurlopen 。

これをテストするため、次のスニペットを作成しました。このコードの第二の最後の行で

from urllib.request import urlopen 
from urllib.error import HTTPError 
from bs4 import BeautifulSoup as bs 

def getTitle(url): 

    try: 
     html = urlopen(url).read() 
    except HTTPError: 
     return None 

    try: 
     bsObj = bs(html) 
    except AttributeError: 
     return None 
    return bsObj 

title = getTitle('http://www.wunderlst.com') 
print(title)

、私は意図的に（実際のURLがhttp://www.wunderlist.comある）URL名を誤って入力しています。私はNoneが私の画面に印刷されることを望んだ。しかし、私はエラーの長いリストを取得します。以下は、私は、エラーメッセージの最後の部分を与えている：

今

During handling of the above exception, another exception occurred: 

Traceback (most recent call last): 
    File "ex4.py", line 18, in <module> 
    title = getTitle('http://www.wunderlst.com') 
    File "ex4.py", line 8, in getTitle 
    html = urlopen(url).read() 
    File "/usr/lib/python3.4/urllib/request.py", line 161, in urlopen 
    return opener.open(url, data, timeout) 
    File "/usr/lib/python3.4/urllib/request.py", line 463, in open 
    response = self._open(req, data) 
    File "/usr/lib/python3.4/urllib/request.py", line 481, in _open 
    '_open', req) 
    File "/usr/lib/python3.4/urllib/request.py", line 441, in _call_chain 
    result = func(*args) 
    File "/usr/lib/python3.4/urllib/request.py", line 1210, in http_open 
    return self.do_open(http.client.HTTPConnection, req) 
    File "/usr/lib/python3.4/urllib/request.py", line 1184, in do_open 
    raise URLError(err) 
urllib.error.URLError: <urlopen error [Errno -2] Name or service not known>

、私はURLの名前を訂正しますが、例えば、ウェブサイトの前にいくつか存在しないページを作成する場合：

title = getTitle('http://www.wunderlist.com/something')

その後私はNoneを画面に印刷します。私は本当にこれについて混乱しています。実際に何が起きているのか誰でも親切に説明できますか？前もって感謝します。

出典

2016-05-01 Peaceful

私はこの問題は、あなただけHTTPErrorを引く（とNoneを返していない）だと思います。 URLErrorの例外を処理する/キャッチするようにしてください。

from urllib.error import HTTPError, URLErrorで
from urllib.error import HTTPError
を交換してください。

は、これはあなたが（どちらの場合もNoneを返す）望んでいた動作が得られます
except (HTTPError, URLError):

で
except HTTPError:
を交換してください。しかし、これらのエラーを別々に扱うことをお勧めします（最初のtryブロックを別の方法に移動し、エラーの発生を防ぐなど）。

出典

2016-05-01 10:56:21 tachirei

これは便利です。なぜこの本に「URLError」は言及されていないのか分かりません。 – Peaceful

あなたが参照している本/記事が間違っているか古いです。 urllib documentationを読むことができます

接続できない場合、IOError例外が発生します。

ホスト名を解決できない場合は、明らかに接続ができないため、ドキュメントに従ってIOErrorを発行する必要があります。 URLErrorは古いPythonsのIOErrorのサブクラスです。urllibの新しいバージョンでは、わかりやすく見えるものからurlopenという機能を持っていないようです。

コメントに記載されているとおり、私はライブラリが間違っています（urllib.requestの代わりにurllib）。あなたは同様の行があります。

エラー時にURLErrorを発生させます。

そこに。恐らく404のようなHTTPエラーはurlopenのエラーとはみなされません。なぜなら、パスが間違っていれば例外は発生しませんが、ホスト名を解決できないとエラーになるからです。

出典

2016-05-01 10:48:25 Cubic

これは明らかにPython 3で、インポートとトレースバックからです。 [docs]（https://docs.python.org/3/library/urllib.error.html#urllib.error.URLError）の状態で、urllib.request.urlopenはURLErrorを発生させます。これはエラーに表示されているものですメッセージ。 –

@Cubic：あなたはPython2のドキュメントを参照していると思います。あなたの言うことが私の質問に答えるかどうかは分かりません。 – Peaceful

@SnehalShekatkar Python3のドキュメントは似ていますが、例外がスローされる時期はあまり詳しくは書かれていません。それで更新されました。 – Cubic

ネットワーク接続がない（指定されたサーバーへのルートがない）ため、または指定したサーバーが存在しないため、URLErrorが発生することがよくあります。

'http://www.wunderlst.com'が存在しませんなぜエラーが発生するのですか？

詳細を確認するには、次のリンクをクリックしてください。

https://docs.python.org/3.1/howto/urllib2.html#handling-exceptions

出典

2016-05-01 10:51:29

urlopen not returningなしURLが誤って入力されたときにオブジェクト

答えて

関連する問題