2017-02-17 13 views
0

forループを使用してサイトのいくつかのディレクトリをクロールしています。Python3の文字列変数が私のurllib.requestを乱し続ける

for url in URL_list: 

    for paged in range(1,99): 
     fullURL=("%s/?count=96&paged=%s&p=&page_id="%(url,paged)) 

     print(fullURL) 
     source= urllib.request.urlopen(fullURL) 

私はhttp://www.somesite.com/category/new-items /?count=96&paged=1&p=&page_id=

EDIT 1 は、「URLのように見えるとして、それが印刷されているため、問題が原因fullURL文字列変数に発生することをかなり確信してエラーにhttp.client.BadStatusLine: <!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN"> を取得しています"リストからの変数はスペースで保存されます。

+0

「page_id」についてはどうですか?それも同様に指定する必要があります。しかし、それはあなたの例ではありません。 – Highstaker

+0

@Highstakerそれは問題ではないようです。問題はURLにではなく、どのように格納され、印刷されるかにあります。 URLのディレクトリは次の行にあります – Volpym

答えて

0

私はそれを次のコードで修正することができました。それは将来誰かを助けることを願っています。

for url in URL_list: 
     for paged in range(1,99): 
      URLDirectory="/?count=96&paged=%s&p=&page_id="%paged 
      fullURL=url+directoryURL 
      fullURL=''.join(fullURL.split()) 
関連する問題