2012-04-06 8 views
1

divやタグなどで設定されたWebページからテスト情報のみを削り取ろうとしています。特定のdivクラス、タグ内の情報のみを再表示します。Perlを使用してWebページからテキストを取り除く

<div class="col col60 moduledetail"><table cellspacing="2" cellpadding="0" border="0" id="moduleDetail"><tr><th class="moduleCode">test<small>CRN: 33413</small></th><th>test</th></tr><tr><td class="label"><nobr>Campus</nobr></td><td><a target="_blank" href="test/">test</a></td></tr><tr><td class="label"> 

は、ウェブページに含まれているもののスニペットです。ページの内容を取得しようとする試みは、ウェブページからすべてのものを取得するということ、タグ内のテキスト情報のみをこのクラスに絞り込む方法を正確に示しています。

ありがとうございました

答えて

3

HTMLパーサーを使用してください。 HTML::TreeBuilderを使用した例は次のとおりです。

use WWW::Mechanize; 
use HTML::TreeBuilder; 

my $mech = WWW::Mechanize->new; 
$mech->get($url); 

my $tree = HTML::TreeBuilder->new_from_content($mech->content); 

if (my $div = $tree->look_down(_tag => "div", class => "col col60 moduledetail")) { 
    print $div->as_text(), "\n"; 
} 
$tree->delete();