curlを使用しているページのソースを取得していて、特定のタグからテキストを抽出したい。HTMLからテキストを抽出するためのsedコマンド
テキストは固有のタグの間にある:の
curl -s "http://www.website.com" | sed 's|PATTERN|\1|'
パターンは、私が試してみました、多くの正規表現パターンのうちの1つである
、1:
私がいたやったhref="http://www.website.com/some/unique/page.php?q=xyz">TEXT</a>
href="http://www.website.com/some/unique/page.php?q=xyz">\(.*\)</a>
しかし、何らかの理由で、私はそれを動作させることができませんでした。私は完全なページソースを取得するか、まったく使用しません(使用したパターンに応じて)。
助けていただければ幸いです。あなたがしたいのみ出力がTEXT
であり、あなたはそれだけでは含むURLから出力されるようにしたい場合は
sed 's/^.*>\([^<]*\)<.*$/\1/'
:ご希望の出力がちょうどTEXT
で、これはあなたが与えた入力で動作しますと仮定すると、
私は急いでいたので、おそらくユニークな「要素」を使用していたはずです。はい、ちょうどテキスト – nio
URLに「ユニーク」という単語をキーしますか? – SiegeX
ソースには、私が提供したテキスト以上のものがあります。私は上記のパターンのようにhref = "http://www.website.com/some/unique/page.php?q=xyz"のタグAから "TEXT"を抽出したいと思います。 – nio