2017-10-16 8 views
0

私はhtmlページをダウンロードし、そのページからpdfファイルへのすべてのリンクを抽出するbashスクリプトを作成しています。bashを使用してすべてのpdfsへのリンクを印刷します

私はbashの初心者だから、<a hrefを含むすべての行だけgrepしてから、grepこれらの行にはpdfという語があることを伝えておきます。

私はバレルにawkを使用することができますが、私は*.pdfを持っている<a href="*.pdf">にテキストのみを得る正しい正規表現を書く方法を知りません。

EDIT:grep "<a href=\"*.pdf\"" pdfへのリンクがすべて見つかりません。どうすれば可能ですか?たとえば、<a href="lorem ipsum.pdf">...</a>が見つかりません。

答えて

1

この行は、html文字列全体で試してください。完璧に私のために動作します。

grep -io "<a[[:space:]]*href=\"[^\"]\+\.pdf\">" | awk 'BEGIN{FS="\""}{print $2}' 
関連する問題