2011-11-01 17 views
-3
for i in range(1,1000000): 

    page = urllib2.urlopen("http://www.palgrave.com/products/title.aspx?pid="+str(i)) 
    print "http://www.palgrave.com/products/title.aspx?pid="+str(i) 
    soup = BeautifulSoup(page) #retreive 

    books = soup.findAll("div",{"id":"Title"}) #process 

私は出版社のカタログ全体を巡回する必要があります。 私が取得する必要があります:Beautifulsoup掻き集め本カタログ

  • 帳画像
  • タイトル
  • 出版社
  • PUBDATE
  • PriceCurrency
  • ISBN13
  • 説明(AJAX]タブ内)
+1

質問はありますか? – 0xd

+0

カタログのすべての本のイメージを取り出す必要があります。 – user1023506

+0

書籍を表すHTMLブロックを提供できますか? – 0xd

答えて

0

これらの場所からコンテンツを抽出するにはXPathを使用してください。

関連する問題