Webページを解析して、ルビを使用して特定のヘッダーの下にある最初のいくつかの埋め込みURLを取得します。たとえば、ドキュメントがdoc-type.timestamp.extとして保存されているドキュメントアーカイブがあり、同じタイプのすべてのドキュメントを取り出したいとします。RubyのWebページを解析してURLを取得します。
私がいた。この上で見つかった最適なソリューション: What is the best way to parse a web page in Ruby?
がとにかくあり、私はhpricotや他のそのようなパッケージを使用せずにこれを行うことができますか?
ありがとうございます!
「特定のヘッダーの下」と「埋め込みURL」とはどういう意味ですか? –
私は、(ドキュメントアーカイブの)正確なユースケースの例を挙げました。たとえば、ウィキペディアのページを解析して、リンクである「* Obama *」の出現箇所を検索し、このURLがリダイレクトされるページのURLを取得することができます。これでより明確になることを願っています。 – Rahul