2011-06-21 21 views
0

私はハイパーリンクから実際のURL文字列を取得したいと思います。私は結果をhtmlから取り除きたい。hpricotを使用してハイパーリンクからURLを抽出するにはどうすればよいですか?

だから、私の入力文字列のいずれかが

<a href="http://target.com/resource.tar.gz">resource</a> 

であれば私が取得したいのですが:

http://target.com/resource.tar.gz 

はどうすればこれを行うことができますか?

答えて

1

Hpricotでは、角括弧を使用して要素の属性にアクセスします(ハッシュの要素にアクセスする場合と同じように)。したがって、あなたの例を使用するには:

doc = Hpricot('<a href="http://target.com/resource.tar.gz">resource</a>') 

puts doc.at('a')['href'] # => http://target.com/resource.tar.gz