私はPythonとBeautifulSoupの初心者です。私はWebスクレーパーを作ろうとしています。しかし、私はいくつかの問題に直面しており、方法を見つけることができません。ここに私の問題は、次のとおりです。BeauifulSoupを使用してデータを解析するには?
これは私がスクラップしたい場所からHTMLの一部です:
今<tr>
<td class="num cell-icon-string" data-sort-value="6">
<td class="cell-icon-string"><a class="ent-name" href="/pokedex/charizard" title="View pokedex for #006 Charizard">Charizard</a></td>
</tr>
<tr>
<td class="num cell-icon-string" data-sort-value="6">
<td class="cell-icon-string"><a class="ent-name" href="/pokedex/charizard" title="View pokedex for #006 Charizard">Charizard</a><br>
<small class="aside">Mega Charizard X</small></td>
</tr>
、私は第一表の行から「リザードン」を抽出したいとの「メガリザードンX」 2行目。今、私は両方の行から "Charizard"を抽出することができます。ここで
は私のコードです:
#!/usr/bin/env python3
from bs4 import BeautifulSoup
soup = BeautifulSoup(open("data.html"), "lxml")
poke_boxes = soup.findAll('a', attrs = {'class': 'ent-name'})
for poke_box in poke_boxes:
poke_name = poke_box.text.strip()
print(poke_name)
ありがとうs!私はあなたのロジックを理解し、いくつかの回避策で、必要なものを実装することができました。 – torque