2013-12-17 14 views
6

私は初心者です。私はリンクから投稿とコメントを取得する必要があります。私はこのプロセスを自動化したい。私はこれにwebcrawlerとjsoupを使用することを検討しましたが、webcrawlerは主により深いWebサイトに使用されていると言われました。ページのためウェブページの内容を取得する(AJAX呼び出しでロード)

サンプル:ジャイブコミュニティサイト

このページでは、私は、ページのソースを表示するとき、私は唯一のポストではなくコメントを見ることができます。コメントはサーバーへのAJAX呼び出しを介して取り出されるため、これが考えられます。

したがって、jsoupを使用すると、コメントをフェッチしません。

投稿やコメントを取得するプロセスを自動化するにはどうすればよいですか?

+0

すべてのコメントは、jive Databaseから読み込まれます。コメントの生のテキストを取得するための隠しリンクはありません。私が検索したリンクがあるはずです(Javaスクリプトを知っていれば、ここから呼び出すことができます:https://www.heylululemon.com/6.0.2.0/resources/scripts/gen/b0e45f40028721e48611c14803fef20d.js)コメントを得るためにサイトから呼び出されますが、私は見ませんでした。あなたはウェブビュー機能を試しましたか? – ImGeorge

+0

[Jsoup Java HTMLパーサー:JavaScriptイベントの実行]の可能な複製(http://stackoverflow.com/questions/7344258/jsoup-java-html-parser-executing-javascript-events) – Pshemo

答えて

9

jsoupはhtmlパーサーのみです。残念ながら、jsoupはそれらを実行できないので、javascript/ajaxコンテンツを解析することはできません。

解決策:スクリプトを処理できるライブラリを使用する。ここで

は私が知っているいくつかの例です:

ようなライブラリは、解析またはセレクタをサポートしていない場合は、することができます少なくともそれらを使ってスクリプトからHtmlを得る(w hsはjsoupで解析できます)。

2

JsoupはJavascriptとAjaxで処理しないので、HtmlunitまたはSeleniumを使用する必要があります。 Htmlunitを使ってページを読み込んだら、残ったタスクのためにjsoupを使うことができます。