0
私はhtmlページをダウンロードし、そのページからpdfファイルへのすべてのリンクを抽出するbashスクリプトを作成しています。bashを使用してすべてのpdfsへのリンクを印刷します
私はbashの初心者だから、<a href
を含むすべての行だけgrepしてから、grepこれらの行にはpdf
という語があることを伝えておきます。
私はバレルにawk
を使用することができますが、私は*.pdf
を持っている<a href="*.pdf">
にテキストのみを得る正しい正規表現を書く方法を知りません。
EDIT:grep "<a href=\"*.pdf\""
pdfへのリンクがすべて見つかりません。どうすれば可能ですか?たとえば、<a href="lorem ipsum.pdf">...</a>
が見つかりません。
正規表現の構文については、マニュアルを読む必要があります。 '*'(星)と '.'(ドット)には特別な意味があります。あなたの 'grep'コマンドで' ' ''を試してみてください。 –
これは何か? [ルート@人形:0 newrelic-infra]#エコー$コード [root @ puppet:0 newrelic-infra]#echo $ code | awk 'BEGIN {FS = "\" "あなたがpdfとhrefを含む行をグレープフルにしてしまったら、awk 'BEGIN {FS = "\" "{print $ 2}' ' –
正規表現を使用しないでください。 、htmlパーサーを使用する – Sundeep