crawler
プログラムをRuby
とNokogiri
でコーディングしたいと思います。 私の目標ウェブサイトのURLはapk.hiapk.com/search?pid=0&key=%E5%8A%A9%E6%89%8B&pi=3
ウェブページの完全なHTMLソースを取得できません
です。検索のURLはhttp://apk.hiapk.com/searchpid=0&key=%E5%8A%A9%E6%89%8B&pi=3
です。私はこのコードをしようとすると
:
url = URI.encode("http://apk.hiapk.com/search?pid=0&key=#{key}&pi=#{page}")
content = client.get_content(url)
html_doc = Nokogiri::HTML(content)
を、私はこのページのHTML
を取得しますが、HTML
は完全なソースではない、それが欠落しているいくつかのHTML
の要素を持っています。
Firefoxを使用してこのURLにアクセスすると、完全なHTMLソースを取得できます。私は何が起こったのか、そして理由を知りたい。このウェブサイトではどの技術が使われていますか?
完全なWebページのHTMLソースを取得できません。 –
おそらく、新しい要素を作成するJavaScriptコードがあります。クローラは通常、スクリプトを実行しません。 – Xufox
なぜあなたは 'Nokogiri :: HTTP(url)'を使っていないのでしょうか? –