bashを使用してすべてのpdfsへのリンクを印刷します

私はhtmlページをダウンロードし、そのページからpdfファイルへのすべてのリンクを抽出するbashスクリプトを作成しています。bashを使用してすべてのpdfsへのリンクを印刷します

私はbashの初心者だから、<a hrefを含むすべての行だけgrepしてから、grepこれらの行にはpdfという語があることを伝えておきます。

私はバレルにawkを使用することができますが、私は*.pdfを持っている<a href="*.pdf">にテキストのみを得る正しい正規表現を書く方法を知りません。

EDIT：grep "<a href=\"*.pdf\"" pdfへのリンクがすべて見つかりません。どうすれば可能ですか？たとえば、<a href="lorem ipsum.pdf">...</a>が見つかりません。

2017-10-16 Delfi

正規表現の構文については、マニュアルを読む必要があります。 '*'（星）と '.'（ドット）には特別な意味があります。あなたの 'grep'コマンドで' ' ''を試してみてください。 –

これは何か？ [ルート@人形：0 newrelic-infra]＃エコー$コード [root @ puppet：0 newrelic-infra]＃echo $ code | awk 'BEGIN {FS = "\" "あなたがpdfとhrefを含む行をグレープフルにしてしまったら、awk 'BEGIN {FS = "\" "{print $ 2}' ' –

正規表現を使用しないでください。、htmlパーサーを使用する – Sundeep

この行は、html文字列全体で試してください。完璧に私のために動作します。

grep -io "<a[[:space:]]*href=\"[^\"]\+\.pdf\">" | awk 'BEGIN{FS="\""}{print $2}'

出典

2017-10-17 07:50:28 HappyStoic

bashを使用してすべてのpdfsへのリンクを印刷します

答えて

関連する問題