linuxでstring1からstring2を検索するにはどうしたらいいですか？

私は、ページをダウンロードしてjpgリンクを検索し、それらをダウンロードするbashスクリプトを書いています。私はgrep/sedコマンドに悩まされていて、リンクを見つけることができません。これまで私が試してみた：linuxでstring1からstring2を検索するにはどうしたらいいですか？

grep -e "http.*" -e ".*jpg" -n wget.html

と

sed -n '/http/,/jpg/p' wget.html

をどのように私は、HTTPから検索することができます：//は、LinuxでJPGしますか？あるいは、sed、grep以外の方法がありますか？

出典

2011-12-16 Crazy_Bash

はgrepを - e "http。*" -e "。* jpg" -n wget.htmlとsed -n '/ filmix /、/ jpg/p' wget.html –

bashはこのための良いツールではありません – Daenyth

その他のオプション私はLinux用ですか？ –

私が理解しているように、ダウンロードしたHTMLの中からすべてhttp://...jpg個の文字列を抽出したいとします。私は理想的には1行に1つだと思います。

$ cat wget.html | grep -e 'http:.*jpg' |sed -e 's/^.*\(http:.*jpg\).*$/\1/g'

grepはhttp refを含む行だけを選択し、sedはこれらの行から他のすべての迷惑メールを取り除きます。

これは、HTML行あたり1つのhttp参照に限定されています。それは仮定できない場合は、複数のタグで行を分割するためにパイプラインの先頭に「TR 『>』『\ 010』のようなものを追加することができ

例：。

sal-xps:~ $ cat wget.html 
<body> 
<img src="http://foo.jpg"> 
<img src="http://bar/gronk.jpg"> 
</body> 


sal-xps:~ $ cat wget.html | grep -e 'http:.*jpg' |sed -e 's/^.*\(http:.*jpg\).*$/\1/g' 
http://foo.jpg 
http://bar/gronk.jpg

出典

2011-12-16 19:33:20 smendola

大変ありがとうございます –

一意の出力に設定することはできますか？：//foo.jpgとhttp：//foo.jpgそれは私にリンクのみのもの –

add sort |パイプラインの終わりまでuniq（または単にsort -u） – smendola

linuxでstring1からstring2を検索するにはどうしたらいいですか？

答えて

関連する問題