hpricotを使用してハイパーリンクからURLを抽出するにはどうすればよいですか？

私はハイパーリンクから実際のURL文字列を取得したいと思います。私は結果をhtmlから取り除きたい。hpricotを使用してハイパーリンクからURLを抽出するにはどうすればよいですか？

だから、私の入力文字列のいずれかが

<a href="http://target.com/resource.tar.gz">resource</a>

であれば私が取得したいのですが：

http://target.com/resource.tar.gz

はどうすればこれを行うことができますか？

2011-06-21 Robert

Hpricotでは、角括弧を使用して要素の属性にアクセスします（ハッシュの要素にアクセスする場合と同じように）。したがって、あなたの例を使用するには：

doc = Hpricot('<a href="http://target.com/resource.tar.gz">resource</a>') 

puts doc.at('a')['href'] # => http://target.com/resource.tar.gz

2011-06-21 07:52:54

答えて