Given this file:いくつかの `<a href="" title=""> tags?
<a data-parent="#accordion1" data-toggle="collapse" href="# fruitName1" title="Click to expand drug name">
<span class="list-unstyled" style="text-decoration: none;"></span> GLIPIZIDE
</a>
<a href="/loads/data/usersindex.cfm?event=overview.subprocess&ApplNo=114223" title="Click to view LEMONS (LEMONS) | POQ #114223 | BOX;67 PZ | PRESENTATION | FRUIT COMPANY 1 ">
LEMONS (LEMONS)</a>
<a href="/loads/data/usersindex.cfm?event=overview.subprocess&ApplNo=114226" title="Click to view LEMONS (LEMONS) | POQ #114226 | BOX;67 PZ | PRESENTATION | FRUIT COMPANY 2 ">
LEMONS (LEMONS)</a>
<a href="/loads/data/usersindex.cfm?event=overview.subprocess&ApplNo=114305" title="Click to view LEMONS (LEMONS) | POQ #114305 | BOX;67 PZ | PRESENTATION | FRUIT COMPANY 3 ">
LEMONS (LEMONS)</a>
<a href="/loads/data/usersindex.cfm?event=overview.subprocess&ApplNo=114370" title="Click to view LEMONS (LEMONS) | POQ #114370 | BOX;67 PZ | Discontinued | FRUIT COMPANY 1 ">
LEMONS (LEMONS)</a>
<a href="/loads/data/usersindex.cfm?event=overview.subprocess&ApplNo=114378" title="Click to view LEMONS (LEMONS) | POQ #114378 | BOX;67 PZ | Discontinued | FRUIT COMPANY 4 ">
LEMONS (LEMONS)</a>
<a href="/loads/data/usersindex.cfm?event=overview.subprocess&ApplNo=114387" title="Click to view LEMONS (LEMONS) | POQ #114387 | BOX;67 PZ | Discontinued | FRUIT COMPANY 5 ">
LEMONS (LEMONS)</a>
<a href="/loads/data/usersindex.cfm?event=overview.subprocess&ApplNo=114438" title="Click to view LEMONS (LEMONS) | POQ #114438 | BOX;67 PZ | PRESENTATION | FRUIT COMPANY 2 ">
LEMONS (LEMONS)</a>
<a href="/loads/data/usersindex.cfm?event=overview.subprocess&ApplNo=114497" title="Click to view LEMONS (LEMONS) | POQ #114497 | BOX;67 PZ | PRESENTATION | FRUIT COMPANY 5 ">
LEMONS (LEMONS)</a>
<a href="/loads/data/usersindex.cfm?event=overview.subprocess&ApplNo=114542" title="Click to view LEMONS (LEMONS) | POQ #114542 | BOX;67 PZ | Discontinued | FRUIT COMPANY 3 ">
LEMONS (LEMONS)</a>
<a href="/loads/data/usersindex.cfm?event=overview.subprocess&ApplNo=114550" title="Click to view LEMONS (LEMONS) | POQ #114550 |
</a>
<a href="/loads/data/usersindex.cfm?event=overview.subprocess&ApplNo=117270" title="Click to view GRAPES (GREEN GRAPES ; AUS) | POQ #117270 | BOX;67 PZ | PRESENTATION | FRUIT COMPANY 10 ">
GRAPES (GREEN GRAPES ; AUS)</a>
<a href="/loads/data/usersindex.cfm?event=overview.subprocess&ApplNo=117511" title="Click to view GRAPES (GREEN GRAPES ; AUS) | POQ #117511 | BOX;67 PZ | PRESENTATION | FRUIT COMPANY 11 ">
GRAPES (GREEN GRAPES ; AUS)</a>
<a href="/loads/data/usersindex.cfm?event=overview.subprocess&ApplNo=117620" title="Click to view GRAPES (GREEN GRAPES ; AUS) | POQ #117620 | BOX;67 PZ | PRESENTATION | FRUIT COMPANY 12 ">
、どのようにhref
タグの前www.example.com
を追加し、すべての<a href="" title="">
抽出するために、正規表現や美しいスープを使用して:
www.example.com/loads/data/usersindex.cfm?event=overview.subprocess&ApplNo=114223 | title= | Click to view LEMONS (LEMONS) | POQ #114223 | BOX;67 PZ | PRESENTATION | FRUIT COMPANY 1 | LEMONS (LEMONS)
www.example.com/loads/data/usersindex.cfm?event=overview.subprocess&ApplNo=114226 | title= | Click to view LEMONS (LEMONS) | POQ #114226 | BOX;67 PZ | PRESENTATION | FRUIT COMPANY 2 | LEMONS (LEMONS)
www.example.com/loads/data/usersindex.cfm?event=overview.subprocess&ApplNo=114305 | title= | Click to view LEMONS (LEMONS) | POQ #114305 | BOX;67 PZ | PRESENTATION | FRUIT COMPANY 3 | LEMONS (LEMONS)
www.example.com/loads/data/usersindex.cfm?event=overview.subprocess&ApplNo=114370 | title= | Click to view LEMONS (LEMONS) | POQ #114370 | BOX;67 PZ | Discontinued | FRUIT COMPANY 1 | LEMONS (LEMONS)
for a in soup.tbody.findAll('a', href=True):
r = re.compile('(?<=href=").*?(?=")')
r.findall(str(a)
そして:私がしようとした
for a in soup.tbody.findAll('a', href=True):
print (a.find('a')['href'])
print (a.find('a')['title'])
しかし、タイトルと階層をどのように再配置するかはわかりません。 odradekの答えに基づいて UPDATE
、私はこれを試してみました:
soup = BeautifulSoup(open('file.htm'), 'lxml')
for a in soup.tbody.findAll('a', href=True):
html = a
PREFIX = 'www.example.com'
template = '{prefix}{url} | {title}'.format
links = [template(prefix=PREFIX, url=e['href'], title=e['title']) for e in html.find_all('a', href=True)]
print(links)
は、しかし、私が得た:
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
私は 'スープ= BeautifulSoup)「/ file.htm」((開こうとしました:odradekの答えで提示または私のお気に入りの代替
lxml
があるとして、あなたは私の意見では、より読みやすいコードにつながる、BeautifulSoupを使用することができます、 'lxml') PREFIX = 'www.example.com' テンプレート= '{接頭辞} {URL} | html.find_all( 'a'、href = True)のeの場合は のようになります。 ] print(links) 'と空リストを得ました:' [] ' –これは私のコードと正確には異なります。 'html.parser'を使っている間に' lxml'パーサを使っています。また、 'bs4.BeautifulSoup'オブジェクトを' soup'変数にロードしている間に、リスト内包の 'html'を反復します。 – odradek
申し訳ありません...私は上記のコードでゲインを試して、得ました: '---------------------------------- ----------------------------------------- KeyErrorトレースバック(直近の最後のコール) in () 9このリストの中にはあなたのforループが暗示されています 10 links = [template(prefix = PREFIX、url = e ['href']、title = e [ ( 'a'、href = True)] ' –