私はこれらのリンクのリンクとタイトルをアニメのウェブサイトで抽出しようとしていますが、タグ全体を抽出することができるだけで、hrefとタイトルが必要です。リンクとタイトルのみを抽出する
Here`sコード使用しています:
import requests
from bs4 import BeautifulSoup
r = requests.get('http://animeonline.vip/info/phi-brain-kami-puzzle-3')
soup = BeautifulSoup(r.content, "html.parser")
for link in soup.find_all('div', class_='list_episode'):
href = link.get('href')
print(href)
やウェブサイトのHTMLをhere`sを:
<a href="http://animeonline.vip/phi-brain-kami-puzzle-3-episode-25" title="Phi Brain: Kami no Puzzle 3 episode 25">
Phi Brain: Kami no Puzzle 3 episode 25 <span> 26-03-2014</span>
</a>
そして、これが出力されます。
C:\Python34\python.exe C:/Users/M.Murad/PycharmProjects/untitled/Webcrawler.py
None
Process finished with exit code 0
Iすべてそのクラスのすべてのリンクとタイトル(エピソードとそのリンク)がほしいです。
ありがとうございます。あなたは「」タグと、属性の値をフェッチ「HREF」を除外することができるように
ちょっとお返事ありがとうございます、コードが動作していますが、コードがどのように動作し、なぜforループが最後にあるのか説明してください。 申し訳ありませんコードを編集したいのですが、私はそれを理解していないとできません:) – AbdulAziz
AbdulAziz私は望ましい変更を行い、あなたが理解してくれた自分の希望を説明しようとしました –
もう一度、今は理解は深まっていますが、出力を1行ではなく、1行でどのように出力するのですか? – AbdulAziz