Pythonでbeautifulsoupを使用して特定の要素をスクラップする方法は？

私は私が面白いんだ反復コードが含まれているPHPファイルを、得た。ここでは一例だPythonでbeautifulsoupを使用して特定の要素をスクラップする方法は？

<a href="/browse.php?cat=298"><img src="/Static/icons/cat_black_mirror.jpeg" alt="Черное зеркало" title="Черное зеркало" align="left" class="category_icon" border="0" /></a> 
    <span class="torrent_title"><b>Заткнись и танцуй (Shut Up and Dance)</b></span><br /> 
     Дата: <b>01.01.2017 20:51</b><br />Звук: <b>Многоголосый закадровый (LostFilm.TV)</b> 
    </span>

私は面白いよ、何が急流タイトルとリンクです。しかし、クラスでスパンに行くことを試みた。後にリンクを探してください。ここにある例

url = 'http://www.lostfilm.tv/browse.php?' 
lost_f = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}) 
lost_soup = BeautifulSoup(lost_f.text,'html.parser',from_encoding="windows-1251") 
for item in lost_soup.findAll('span', {'class': 'torrent_title'}): 
print item.text 
print item.previous_sibling.previous_sibling['href']

結果：名前+不正なリンク。どのように私はトレントの名前と関連リンクを得ることができますか？

出典

2017-01-02 Lord G.

は私のために正常に動作します。あなたはどんなリンクを手に入れますか？このページに問題があるように見えます。画像やリンクはタイトルとは異なります。 –

これは何か？

import re 

url = 'http://www.lostfilm.tv/browse.php?' 
lost_f = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}) 
lost_soup = BeautifulSoup(lost_f.text,'html.parser', from_encoding="windows-1251") 
for a in lost_soup.find_all('a',{'href': re.compile('/browse\.php\?cat=\d+')}): 
    print "HREF=", a['href'], "TITLE =", a.text

出典

2017-01-02 20:19:24 MYGz

スポットオン。私はその日の半分をそれに費やしてきました。あなたは5分で右にいます。さて、完了しました。 –

@Lord G.この質問を閉じるためにこの回答を受け入れてください。これは、他人の時間を節約します。 –

<a href="/browse.php?cat=298"><img src="/Static/icons/cat_black_mirror.jpeg" alt="Черное зеркало" title="Черное зеркало" align="left" class="category_icon" border="0" /></a>

このaタグはhref="/browse.php?cat=298"とtitle="Черное зеркало"、あなたはこのタグ内のすべての情報を得ることができるURLが含まれています。アウト

import requests, bs4 
url = 'http://www.lostfilm.tv/browse.php?' 
lost_f = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}) 
lost_soup = bs4.BeautifulSoup(lost_f.text,'lxml',from_encoding="windows-1251") 

content_body = lost_soup.find('div', class_="content_body") 
a_tags = content_body.select('a[href^="/browse.php?cat="]') 
titles = [a.img.get('title') for a in a_tags] 
links = [a.get('href') for a in a_tags] 

for link, title in zip(links, titles): 
    print(link, title)

：

/browse.php?cat=130 Шерлок 
/browse.php?cat=298 Черное зеркало 
/browse.php?cat=296 Третий глаз 
/browse.php?cat=297 Твин Пикс 
/browse.php?cat=298 Черное зеркало 
/browse.php?cat=297 Твин Пикс 
/browse.php?cat=298 Черное зеркало 
/browse.php?cat=219 Викинги 
/browse.php?cat=295 Корпорация 
/browse.php?cat=298 Черное зеркало 
/browse.php?cat=297 Твин Пикс 
/browse.php?cat=298 Черное зеркало 
/browse.php?cat=294 Стрелок 
/browse.php?cat=267 Человек в высоком замке 
/browse.php?cat=297 Твин Пикс

出典

2017-01-03 01:10:57

ありがとうございます。それは特定の要素に進む別の方法です –

Pythonでbeautifulsoupを使用して特定の要素をスクラップする方法は？

答えて

関連する問題