あなたはPerlでそれを行うことができます:
$ perl -ne 'print if /HEADER TEXT/ .. /FOOTER TEXT/' file.html
を区切り文字間のテキストのみを印刷するには、
$ perl -000 -lne 'print $1 while /HEADER TEXT(.+?)FOOTER TEXT/sg' file.html
を使用/s
スイッチは、正規表現マッチャーを作るには、として文字列全体を扱いますsシングルライン。ドットは改行と一致し、/g
はできるだけ多くの回数一致することを意味します。
上記の例では、ローカルディスク上のHTMLファイルをクランキングすると仮定しています。あなたは、最初にそれらを取得LWP::Simple
からget
を使用する必要がある場合:
$ perl -MLWP::Simple -le '$_ = get "http://stackoverflow.com";
print $1 while m!<head>(.+?)</head>!sg'
を上記のように、正規表現でHTMLを解析することは一般的なケースでは動作しませんのでご注意ください!すばやく汚れたスキャナで作業しているが、堅牢性が必要なアプリケーションの場合は、実際のパーサーを使用してください。
ありがとうございました!どのようなフレンドリーで便利なサイト。私はBBEditでgrep検索を使用していたことを忘れていました。これは素晴らしいことです。あなたはすべてロック! –