2017-01-24 16 views
-1

ウェブサイトから.mp3リンクを取得できるウェブクローラーを作りたいと思います。ただし、コンテンツは例のサイトhttp://raagtune.net/では動的です。このサイトでは、コンテンツは"http://raag.me//music/data/ .. some random .mp3"から取得されます。サイト全体をクロールして、どのようにしてpythonでscrapyを使用してすべてのMP3リンクを取得できますか?それとも代替方法がありますか?スクラップでWebクローラーを作成して.mp3リンクを取得する方法

答えて

0

beautifulsoup pythonのパッケージを使用できます。

import httplib2 from BeautifulSoup import BeautifulSoup, SoupStrainer http = httplib2.Http() status, response = http.request('http://www.nytimes.com') for link in BeautifulSoup(response, parseOnlyThese=SoupStrainer('a')): if link.has_attr('href'): print link['href']

ちょうどそのURLは、そのリンクで.mp3を持っているかどうかを確認してください。はいの場合は、それをリストに格納してから続行します。

希望すると便利です。

関連する問題