BeautifulSoupを使用して記事から画像のURLと画像のキャプションを抽出しようとしています。記事の画像のURLと画像のキャプションを前と後のHTMLから分けることができますが、これらの2つをhtmlタグから分離する方法はわかりません。ここに私のコードです:BeautifulSoupを使用して画像のキャプションと画像のURLを抽出する
from bs4 import BeautifulSoup
import requests
url = 'http://www.prnewswire.com/news-releases/dutch-philosopher-
koert-van-mensvoort-founder-of-the-next-nature-network-writes-a-
letter-to-humanity-619925063.html'
r = requests.get(url)
html = r.text
soup = BeautifulSoup(html, 'lxml')
links = soup.find_all('div', {'class': 'image'})
私が抽出しようとしている2つのセクションは、src =とtitle =セクションです。これら2つの構文解析をどのように達成するかについてのアイディアは高く評価されます。
@Billあなたの問題を解決した場合。回答 –
を受け入れてください。これは完全に機能しました。どうもありがとうございました。 –
正しいマークアップは 'html5lib'で' lxml'ではなく 'xml'のために使われます –