2016-08-23 5 views
0

私はtyphoeusを使用して完全なWebページをダウンロードするにはルビーを使用していますが、それだけでHTMLをダウンロードし、RubyのみでHTMLの代わりにtyphoeusを使って完全なWebページをダウンロードすることはできますか?

request = Typhoeus::Request.new(
      "www.example.com", 
      method: :get, 
      headers: { Accept: "text/html" } 
    ) 

response.body戻っのみHTMLは、私がされているそのデータとの完全なWebページをダウンロードする任意の形式を追加できますjavascript経由でロードされますか?または、データを取得する他の方法はありますか?

+1

(例えばCSS)を使用すると、ページ上の他の資産のために同じことを行う必要があり、必要なすべての画像を検索し、それらをあなたはこれで何をしているかに応じて、

をダウンロードするには、HTMLを解析する必要があります[Nokogiri](http://nokogiri.org)のようなものを使ってHTMLを解析し、その後に必要なリソースを取得する責任があります。 'wget'ツールには、クイックで汚れた解を必要とするならば、すべてをクモとダウンロードする' -m'オプションがあります。 – tadman

+0

nokogiriを経由して、私はオープンを使用しましたが、私は解析しようとしているWebページがjavascriptを介してデータをロードしているので、HTMLも取得します。 – dips

+1

ここでJavaScriptとは何が関係していますか?もう一度、NokogiriはHTMLパーサです。サイトダウンローダではありません。これを動作させるにはJavaScriptが必要な場合は、[ヘッドレスブラウザ](https://www.ruby-toolbox.com/categories/browser_testing)を使用する必要があります。 – tadman

答えて

0

これは、1回のリクエストでは実行できません。あなたは、通常

+0

私はjavascript経由でロードされているWebページからコンテンツを取得する必要があります、どのようにJavaScriptを介してロードされたデータを取得するために解析する? – dips

関連する問題