2016-08-23 18 views
0

crawlerプログラムをRubyNokogiriでコーディングしたいと思います。 私の目標ウェブサイトのURLはapk.hiapk.com/search?pid=0&key=%E5%8A%A9%E6%89%8B&pi=3ウェブページの完全なHTMLソースを取得できません

です。検索のURLはhttp://apk.hiapk.com/searchpid=0&key=%E5%8A%A9%E6%89%8B&pi=3です。私はこのコードをしようとすると

url = URI.encode("http://apk.hiapk.com/search?pid=0&key=#{key}&pi=#{page}") 

content = client.get_content(url) 

html_doc = Nokogiri::HTML(content) 

を、私はこのページのHTMLを取得しますが、HTMLは完全なソースではない、それが欠落しているいくつかのHTMLの要素を持っています。

Firefoxを使用してこのURLにアクセスすると、完全なHTMLソースを取得できます。私は何が起こったのか、そして理由を知りたい。このウェブサイトではどの技術が使われていますか?

+0

完全なWebページのHTMLソースを取得できません。 –

+0

おそらく、新しい要素を作成するJavaScriptコードがあります。クローラは通常、スクリプトを実行しません。 – Xufox

+0

なぜあなたは 'Nokogiri :: HTTP(url)'を使っていないのでしょうか? –

答えて

0

私は

Nokogiri::HTML(open("http://apk.hiapk.com/search?pid=0&key=%E5%8A%A9%E6%89%8B&pi=10")) 

を使用する場合、それが成功した、と私は完全なHTMLソースを取得します。

だから私はその理由を知っていた。

+0

この問題は私が作ったものです。私のコードは正しくないので、完全なHTMLソースを手に入れることはできません。 –

関連する問題