2017-11-15 6 views
0

ウェブをページのスクレイプしようとしていますが、エラーメッセージが表示され続けます。 "HTTPError(req.full_url、code、msg、hdrs、fp)HTTPError:Not Found"を発生させます。ウェブスクレイピングの問題

私はこの問題をどのように受けているのですか、どのように修正できるのか誰にでも見られますか?ここで

は私のコードです:

import bs4 
from urllib.request import urlopen as uReq 
from bs4 import BeautifulSoup as soup 
U="https://llis.nasa.gov/search?organization=arc&page=1" 


uClient=uReq(U) 
page_html=uClient.read() 
uClient.close() 
page_soup=soup(page_html,"html.parser") 
page_soup.h2 
+0

提供してくださいエラーのスタックトレース。 – aquaman

+0

インポート時に 'urllib.request'を' urllib'に置き換えることができます。 – L337BEAN

+0

これにリンクできますかhttps://stackoverflow.com/questions/16627227/http-error-403-in-python-3-web-scraping – mjwatts

答えて

1

より強力でHTTPリクエストを処理するための柔軟なとしてrequestsモジュール使用:

import bs4, requests 

url = "https://llis.nasa.gov/search?organization=arc&page=1" 
data = requests.get(url) 
soup = bs4.BeautifulSoup(data.content, 'html.parser') 

print(soup.body) 

出力:

<body> 
<script src="assets/vendor.js"></script> 
<script src="assets/js/bootstrap.min.js"></script> 
<script src="assets/llis.js"></script> 
</body> 
+0

ありがとうございます! –

+0

ウェブページにbfを渡し、すべてのNASAレッスンを廃止する方法はありますか?例:https://llis.nasa.gov/lesson/1347 –

+0

@ J.Smith、あなたの*ウェブページ上でのあなたの*通過の意味は? – RomanPerekhrest

関連する問題