私は、Webページをスクラップし、HTMLタグ内の値を取得しようとしています。最終結果は クラブのように見える方法で値を分離するための方法だろう:X場所:yのURL:zのHTML :: PerlでのHTML :: Treeの解析
はここで、これまで私が持っているもの
use HTML::Tree;
use LWP::Simple;
$url = "http://home.gotsoccer.com/clubs.aspx?&clubname=&clubstate=AL&clubcity=";
$content = get($url);
$tree = HTML::Tree->new();
$tree->parse($content);
@td = $tree->look_down(_tag => 'td', class => 'ClubRow');
foreach $1 (@td) {
print $1->as_text();
print "\n";
}
そして、何に印刷され
のようなものであるのですAYSO UnitedMadison, ALwww.aysounitednorthalabama.org
これは、私は方法が必要にHTMLが
<td class="ClubRow" width="80%">
<div>
<a href="/rankings/club.aspx?ClubID=27086" class="ClubLink">AYSO United</a></div>
<div class="SubHeading">Madison, AL</div>
<a href="http://www.aysounitednorthalabama.org" target="_blank"><img src="/images/icons/ArrowRightSm.png" class="LinkIcon"><font color="black">www.aysounitednorthalabama.org</font></a>
</td>
次のようになりますこれらのフィールドを別々の変数に分割するか、ある種の文字を削除するようにして、Regexでそれを行うことができます。オンラインでの資料はあまりないので、助けに感謝します。
'foreach $ 1(@td){' ...残りの部分については、あなたが望むすべてのビットが容易に識別可能です。だから、それらを抽出する。 –
@SinanÜnür代わりに何をお勧めしますか? –