Pythonの任意のウェブサイトからリンクタイトルを掻き集める一般的な方法はありますか?たとえば、次のコードを使用した場合:Pythonの任意のサイトからリンクのタイトルを削る一般的な方法は?
from urllib.request import url open
from bs4 import BeautifulSoup
site = "https://news.google.com"
html = urlopen(site)
soup = BeautifulSoup(html.read(), 'lxml');
titles = soup.findAll('span', attrs = { 'class' : 'titletext' })
for title in titles:
print(title.contents)
news.google.comからほぼすべての見出しタイトルを抽出できます。しかし、www.yahoo.comで同じコードを使用すると、別のHTMLフォーマットが原因で私はできません。
これを行うより一般的な方法がありますので、ほとんどのサイトで使用できますか?
使用[ 'find_all()'](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#method-names) – wpercy
@wpercyのおかげで、私は古いです。それでも動作しますが、あなたは正しいので、私はそれを変更しています。 – dstudeba
ええ、私はそれがあなたよりも初心者のためであることを知っています。 – wpercy