私はリンク付きの入力があり、そのリンクを開きたいと思います。たとえば、HTMLファイルがあり、そのファイル内のすべてのリンクを見つけてその内容をExcelスプレッドシートで開きたいとします。PerlでHTMLファイルからリンクを抽出するにはどうすればよいですか?
答えて
これはWWW::Mechanizeの仕事のようです。これは、Webページを取得し、勉強するためのかなり高いレベルのインターフェースを提供します。
ドキュメントを読んだら、どうすればよいかわかります。
WWW :: Mechanizeを使用します。 my $ mech = WWW :: Mechanize-> new(自動チェック=> 1); $ mech-> get( "http://www.google.com"); $ mech-> contentを出力してください。 取得中にエラー エラーGETing http://www.google.com:(:不明なエラー接続)私が間違っているかを知りたい www.google.com:80に接続できません。 – User1611
google.comは特別です。それはロボットが好きではありません。ただし、接続できない場合はネットワークに問題があるようです。 –
私のHTML::SimpleLinkExtorモジュールのリンクトラクタースクリプトが必要なようです。
私のwebreaperスクリプトに興味があるかもしれません。私は長い間、この同じ仕事に近い何かをする前に書きました。他のツールがはるかに優れているので、実際には推奨しませんが、少なくともコードを見ることができます。
Mojo::UserAgentも、このために非常にいいです:
use Mojo::UserAgent
print Mojo::UserAgent
->new
->get($ARGV[0])
->res
->dom->find("a")
->map(attr => "href")
->join("\n");
はWeb::Queryもあります:
#!/usr/bin/env perl
use 5.10.0;
use strict;
use warnings;
use Web::Query;
say for wq(shift)->find('a')->attr('href');
または、CLIから:
$ perl -MWeb::Query -E'say for wq(shift)->find("a")->attr("href")' \
http://techblog.babyl.ca
私はしましたこれはこれまでにURI::Findを使用していました(ファイルがHTMLでない場合)。
- 1. PerlでPDFファイルからフォントを抽出するにはどうすればよいですか?
- 2. Perlを使用してファイルから略語を抽出するにはどうすればよいですか?
- 3. Perlを使用してパスからファイル名を抽出するにはどうすればよいですか?
- 4. HTMLのページからリンクを抽出するにはどうすればよいですか?
- 5. htmlファイルから定義を抽出するにはどうすればよいですか?
- 6. ディレクトリ内のhtmlファイルからイメージを抽出するにはどうすればよいですか?
- 7. PerlでMediaWiki :: APIからリダイレクトタイトルのリストを抽出するにはどうすればよいですか?
- 8. Perlマッチ演算子から変数にマッチを抽出するにはどうすればよいですか?
- 9. Perl:クエリ文字列からインナーページアンカーを抽出するにはどうすればよいですか?
- 10. WebページからHTMLトピック見出しを抽出するにはどうすればよいですか?
- 11. Orange3でCSVファイルの列から頻出アイテムセットを抽出するにはどうすればよいですか?
- 12. xpathのイタリック体に続くリンクからURLを抽出するにはどうすればよいですか?
- 13. Python3.1を使用してHTMLページからデータを抽出するにはどうすればよいですか?
- 14. 複数のHTMLタグの内部からテキストを抽出するにはどうすればよいですか?
- 15. htmlページファイルから日付と時刻を抽出するにはどうすればよいですか?
- 16. QtのHTMLソースから表形式の値を抽出するにはどうすればよいですか?
- 17. HTMLコードからURLを正しく抽出するにはどうすればよいですか?
- 18. CでWBCファイルから画像を抽出するにはどうすればよいですか?
- 19. Stackoverflowの投稿タイトルをPerlで抽出するにはどうすればよいですか?
- 20. TarsosDSPを使用してファイルからMFCCデータを抽出するにはどうすればよいですか?
- 21. ファイルにファイルをリンクするにはどうすればよいですか?
- 22. ファイル内から単一のチャンクを抽出するにはどうすればよいですか?
- 23. .ipaファイルからカスタムURLスキームを抽出するにはどうすればよいですか?
- 24. keygenファイルからMaps API Keyを抽出するにはどうすればよいですか?
- 25. ファイルからデータを抽出するにはどうすればよいですか?
- 26. ファイルから特定のデータを抽出するにはどうすればよいですか?
- 27. パスからのみファイル/フォルダ名を抽出するにはどうすればよいですか?
- 28. Mac上の* .jarファイルからソースコードを抽出するにはどうすればよいですか?
- 29. AWS Lambda:生のメールから添付ファイル(xls)を抽出するにはどうすればよいですか?
- 30. VB6 .frxファイルから画像を抽出するにはどうすればよいですか?
なぜ、どうしてそれぞれの投稿をそのようにフォーマットする必要がありますか?どうして? – innaM
いくつかのhtmlファイルからリンクのリストを取得する方法を尋ねていますか?または、リンクをたどる方法を尋ねていますか?または、Excelスプレッドシートに何かを得る方法を尋ねていますか? – innaM
私はそれを読んで、彼/彼女は与えられたページからリンクされたページからデータを掻き出し、その結果をExcelドキュメントに入れたいと思っています。 –