PerlでHTMLファイルからリンクを抽出するにはどうすればよいですか？

私はリンク付きの入力があり、そのリンクを開きたいと思います。たとえば、HTMLファイルがあり、そのファイル内のすべてのリンクを見つけてその内容をExcelスプレッドシートで開きたいとします。PerlでHTMLファイルからリンクを抽出するにはどうすればよいですか？

出典

2009-05-27 User1611

なぜ、どうしてそれぞれの投稿をそのようにフォーマットする必要がありますか？どうして？ – innaM

いくつかのhtmlファイルからリンクのリストを取得する方法を尋ねていますか？または、リンクをたどる方法を尋ねていますか？または、Excelスプレッドシートに何かを得る方法を尋ねていますか？ – innaM

私はそれを読んで、彼/彼女は与えられたページからリンクされたページからデータを掻き出し、その結果をExcelドキュメントに入れたいと思っています。 –

これはWWW::Mechanizeの仕事のようです。これは、Webページを取得し、勉強するためのかなり高いレベルのインターフェースを提供します。

ドキュメントを読んだら、どうすればよいかわかります。

出典

2009-05-27 11:41:56 jplindstrom

WWW :: Mechanizeを使用します。 my $ mech = WWW :: Mechanize-> new（自動チェック=> 1）; $ mech-> get（ "http://www.google.com"）; $ mech-> contentを出力してください。取得中にエラーエラーGETing http://www.google.com：（：不明なエラー接続）私が間違っているかを知りたい www.google.com:80に接続できません。 – User1611

google.comは特別です。それはロボットが好きではありません。ただし、接続できない場合はネットワークに問題があるようです。 –

私のHTML::SimpleLinkExtorモジュールのリンクトラクタースクリプトが必要なようです。

私のwebreaperスクリプトに興味があるかもしれません。私は長い間、この同じ仕事に近い何かをする前に書きました。他のツールがはるかに優れているので、実際には推奨しませんが、少なくともコードを見ることができます。

CPANとGoogleはお友達です。 :)

Mojo::UserAgentも、このために非常にいいです：

use Mojo::UserAgent 

print Mojo::UserAgent 
    ->new 
    ->get($ARGV[0]) 
    ->res 
    ->dom->find("a") 
    ->map(attr => "href") 
    ->join("\n");

出典

2009-05-27 12:14:01

はWeb::Queryもあります：

#!/usr/bin/env perl 

use 5.10.0; 

use strict; 
use warnings; 

use Web::Query; 

say for wq(shift)->find('a')->attr('href');

または、CLIから：

$ perl -MWeb::Query -E'say for wq(shift)->find("a")->attr("href")' \ 
     http://techblog.babyl.ca

出典

2016-02-19 18:08:41 Yanick

私はしましたこれはこれまでにURI::Findを使用していました（ファイルがHTMLでない場合）。

出典

2016-02-20 04:53:44

PerlでHTMLファイルからリンクを抽出するにはどうすればよいですか？

答えて

関連する問題