HTMLページを解析して結果がプレーンテキストになるようにgrep結果からすべてのHTMLタグを削除したい場合 たとえば、phpinfoを解析して、フルラインの代わりにPHPバージョンのみを取得する場合HTMLタグ:sed HTML</ >タグ
$curl -i http://piscina.tienda/phpinfo.php | grep 'PHP Version' | head -1
href="http://www.php.ne.... alt="PHP logo" /></a><h1 class="p">PHP Version 5.5.33</h1>
私は結果として「PHPバージョン5.5.33」のみを取得したいと思いますが、
私はsedのパターンを、次の試してみました:
sed -e 's/<.*>//g'
sed -e 's/^<.*>$//g'
しかし、結果はHTMLコードまたは(すべての出力が交換された)すべての空白がいっぱいです。 この場合、sedを使用してHTMLタグのみを削除することができますか、この場合は他の演算子を使用する方がよいでしょうか?それともパターンに問題がありますか?
ご協力いただきありがとうございます!
'sed -e 's/<\/?[^>] *> // g''ですか? – anishsane
パターンに問題があります。また、この特定のケースでは非常に簡単ですが、一般的に、正規表現をhtmlの解析に使用しないでください。 – 123