2017-09-18 12 views
0

私は、URLのリストを調べて、美しいスープを使用してコンテンツを抽出する簡単なプログラムを構築しています。分のために私はちょうどHTMLのリストを反復して取得しようとしているが、私は次のエラーを得続ける:SSL:CERTIFICATE_VERIFY_FAILEDエラー:ウィンドウ上で

Traceback (most recent call last): 
    File "C:\ProgramData\Anaconda3\lib\urllib\request.py", line 1318, in do_open 
    encode_chunked=req.has_header('Transfer-encoding')) 
    File "C:\ProgramData\Anaconda3\lib\http\client.py", line 1239, in request 
    self._send_request(method, url, body, headers, encode_chunked) 
    File "C:\ProgramData\Anaconda3\lib\http\client.py", line 1285, in _send_request 
    self.endheaders(body, encode_chunked=encode_chunked) 
    File "C:\ProgramData\Anaconda3\lib\http\client.py", line 1234, in endheaders 
    self._send_output(message_body, encode_chunked=encode_chunked) 
    File "C:\ProgramData\Anaconda3\lib\http\client.py", line 1026, in _send_output 
    self.send(msg) 
    File "C:\ProgramData\Anaconda3\lib\http\client.py", line 964, in send 
    self.connect() 
    File "C:\ProgramData\Anaconda3\lib\http\client.py", line 1400, in connect 
    server_hostname=server_hostname) 
    File "C:\ProgramData\Anaconda3\lib\ssl.py", line 401, in wrap_socket 
    _context=self, _session=session) 
    File "C:\ProgramData\Anaconda3\lib\ssl.py", line 808, in __init__ 
    self.do_handshake() 
    File "C:\ProgramData\Anaconda3\lib\ssl.py", line 1061, in do_handshake 
    self._sslobj.do_handshake() 
    File "C:\ProgramData\Anaconda3\lib\ssl.py", line 683, in do_handshake 
    self._sslobj.do_handshake() 
ssl.SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:749) 

During handling of the above exception, another exception occurred: 

Traceback (most recent call last): 
    File "C:/Users/thoma/PycharmProjects/fyp/urls_and_prep/parsing_html.py", line 17, in <module> 
    response = urllib.request.urlopen(req) 
    File "C:\ProgramData\Anaconda3\lib\urllib\request.py", line 223, in urlopen 
    return opener.open(url, data, timeout) 
    File "C:\ProgramData\Anaconda3\lib\urllib\request.py", line 526, in open 
    response = self._open(req, data) 
    File "C:\ProgramData\Anaconda3\lib\urllib\request.py", line 544, in _open 
    '_open', req) 
    File "C:\ProgramData\Anaconda3\lib\urllib\request.py", line 504, in _call_chain 
    result = func(*args) 
    File "C:\ProgramData\Anaconda3\lib\urllib\request.py", line 1361, in https_open 
    context=self._context, check_hostname=self._check_hostname) 
    File "C:\ProgramData\Anaconda3\lib\urllib\request.py", line 1320, in do_open 
    raise URLError(err) 
urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:749)> 

私のプログラムは十分に単純であるが、私は理解したり、任意の良いリソースを見つけることができません正確に何が起こっているのか/それをどう扱うべきかを調べるためです。私はSSL証明書とは何かを知っていますが、どこでそれらを使用するか、どこにインストールするかはわかりません。私はこれまでにSSLで実際に作業したことがないので、 。どんな指導や助けも大歓迎です。ここでは、コードです:

import urllib.request 
from bs4 import BeautifulSoup 

file = open("all_urls.txt", "r") 

for line in file: 
    print(line) 

    try: 
     response = urllib.request.urlopen(line) 
     html = response.read() 
    except ValueError: 
     print(ValueError) 
     continue 
    soup = BeautifulSoup(html, 'lxml') 
    print(soup.get_text()) 
+0

certificate-生産に使用しないようにしてください+ python +証明書+失敗)。これらが助けにならない場合、あなたの特定の質問について助けを求めたい場合は、問題を再現するのに十分な詳細を提供してください。これは特にコードが失敗するURLを意味します。 –

答えて

0

は、WindowsまたはLinuxを使用していますか?この問題は、Pythonではなく、AnacondaまたはOSにあるようです。次のような簡単な解決策を試すことができます:1 - AnacondaのものよりもPythonのインストールを使って実行する。 2 - 仮想コンポーネントを使用して、OSのコンポーネントを分離します。

+0

私はanacondaでwindowsを使っていますが、私はanacondaをインストールする前にpythonといくつかのライブラリをインストールしていたと思います。あなたはpython/anacondaヘルプを再インストールすると思いますか?返信いただきありがとうございます? –

+0

AnacondaのPythonとPythonのインストールは、別の場所にあります。スクリプトを実行するときにPythonの完全なパスを渡してみてください。例: 'C:¥Program Files¥Python34¥Python xxxxxxxx.py' –

0

以下で問題を解決します。しかし、[このトピックに関する多くの質問](https://stackoverflow.com/search?q=is%3Aquestionがありますが、それはSSLを検証せずに作業するよう

import urllib 
from bs4 import BeautifulSoup 
import ssl 

# This is a temporary fix .Be carefule of malicious links 
context = ssl._create_unverified_context() 
file = open("all_urls.txt", "r") 

for line in file: 
    print(line) 

    try: 
     response = urllib.request.urlopen(line, context=context) 
     html = response.read() 
    except ValueError: 
     print(ValueError) 
     continue 
    soup = BeautifulSoup(html, 'lxml') 
    print(soup.get_text()) 
+0

これは素晴らしいことですが、私のリストにあるリンクはどれも悪意のあるものではないので、うまくいくはずです。私は後でクローラでこのコードを使用しています。だから、私がチェックするリンクがわからないそのシナリオでは、何をお勧めしますか?返信いただきありがとうございます、本当に感謝します。 –

関連する問題