私は特定の部分だけを取得する必要があるHTMLファイルを持っています。ここでの最大の課題は、このHTMLファイルに改行がないため、grep表現がうまく機能しないことです。私はこのライン上の2つのアンカー(<a>
)を持っているregexでgrep/sed/awkを使って行の一部だけを取得するには?
<a href="/link1" param1="data1_1" param2="1_2"><p>Test1</p></a><a href="/link2" param1="data1_1" param2="1_2"><p>Test2</p></a>
注:
は、ここに私のHTMLファイルです。
私は第二のアンカーを取得したいと私はそれを使用して取得しようとしていた。
cat example.html | grep -o "<a.*Test2</p></a>"
残念ながら、このコマンドは、行全体を返しますが、私はしたい:
<a href="/link2" param1="data1_1" param2="1_2"><p>Test2</p></a>
Iドンgrepやsedでこれを行う方法を知っていないので、本当に助けていただければ幸いです。マルチchar型のRSのためのGNUのawkで
をXML/HTMLパーサ(xmllint、xmlstarletを...)を使用します。 – Cyrus