2017-09-26 7 views
0

以下のHTTPS URLに一連のXMLファイルがあります。 URLから最新のXMLファイルを入手する必要があります。HTTPSから最新のXMLファイルを取得

このコードを修正しようとしましたが、動作しません。助けてください。

from bs4 import BeautifulSoup 
import urllib.request 
import requests 

url = 'https://www.oasis.oati.com/cgi-bin/webplus.dll?script=/woa/woa-planned-outages-report.html&Provider=MISO' 
response = requests.get(url, verify=False) 
#html = urllib.request.urlopen(url,verify=False) 
soup = BeautifulSoup(response) 

私はbeautifulsoupが応答オブジェクトを読み取らないとします。また、urlopen関数を使用すると、SSLエラーがスローされます。

答えて

0

BeautifulSoupは直接requestsResponseインスタンスを理解していない - 解析する.contentをつかむと、 『スープ』に渡し:

soup = BeautifulSoup(response.content, "html.parser") # you can also use "lxml" or "html5lib" instead of "html.parser" 

BeautifulSoupは、同様に、 『ファイルのような』オブジェクトを理解する - どの手段をSSLエラーの問題を見つけたら、次のようにしてください:

data = urllib.request.urlopen(url) 
soup = BeautifulSoup(data, "html.parser") 
0

私の質問には正しく当てはまりませんでした。しかし、調査を進めた後、私は、参照されたURLタグ内のすべてのURLを実際に抽出しようとしていることがわかりました。美しいスープの背景をさらにいくつか使って、私はsoup.find_all( 'a')を使用します。

関連する問題