0
forループを使用してサイトのいくつかのディレクトリをクロールしています。Python3の文字列変数が私のurllib.requestを乱し続ける
for url in URL_list:
for paged in range(1,99):
fullURL=("%s/?count=96&paged=%s&p=&page_id="%(url,paged))
print(fullURL)
source= urllib.request.urlopen(fullURL)
私はhttp://www.somesite.com/category/new-items /?count=96&paged=1&p=&page_id=
EDIT 1 は、「URLのように見えるとして、それが印刷されているため、問題が原因fullURL
文字列変数に発生することをかなり確信してエラーにhttp.client.BadStatusLine: <!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN">
を取得しています"リストからの変数はスペースで保存されます。
「page_id」についてはどうですか?それも同様に指定する必要があります。しかし、それはあなたの例ではありません。 – Highstaker
@Highstakerそれは問題ではないようです。問題はURLにではなく、どのように格納され、印刷されるかにあります。 URLのディレクトリは次の行にあります – Volpym