2011-03-22 14 views
0

Webページを解析して、ルビを使用して特定のヘッダーの下にある最初のいくつかの埋め込みURLを取得します。たとえば、ドキュメントがdoc-type.timestamp.extとして保存されているドキュメントアーカイブがあり、同じタイプのすべてのドキュメントを取り出したいとします。RubyのWebページを解析してURLを取得します。

私がいた。この上で見つかった最適なソリューション: What is the best way to parse a web page in Ruby?

がとにかくあり、私はhpricotや他のそのようなパッケージを使用せずにこれを行うことができますか?

ありがとうございます!

+0

「特定のヘッダーの下」と「埋め込みURL」とはどういう意味ですか? –

+0

私は、(ドキュメントアーカイブの)正確なユースケースの例を挙げました。たとえば、ウィキペディアのページを解析して、リンクである「* Obama *」の出現箇所を検索し、このURLがリダイレクトされるページのURLを取得することができます。これでより明確になることを願っています。 – Rahul

答えて

3

なぜ外部の宝石を使いたくないですか?

require 'rubygems' 
require 'mechanize' 

a = Mechanize.new { |agent| 
    agent.user_agent_alias = 'Mac Safari' 
} 

a.get('http://google.com/') do |page| 
    p page.links 
end 

私は最近、多くのことをこするてきたし、あなたがなく、非常に遠く取得することはできません:彼らはあなたの人生をずっと簡単にすることができ、ページ上のあなたがすることができますすぐに出力すべてのリンクこのMechanize例でAA見てみましょうページを解析すると、Nokogiriをプレーンネット/ httpで使用しますが、将来はMechanizeに切り替わります。 MechanizeはNokogiriを内部的にも使用します。

関連する問題