2011-08-02 13 views
4

Googleのサイトで無効なURLを検出するために、Javaで書かれたクロールツールを探しています。クロールのためのヘッドレスJava HTTPクライアント?

難しいのは、URLの多くがjavaScript、CSS3、Ajaxで行われていることです。だから、サイトのURLのコンテンツを取得するだけではできません。

理想的なのは、javaScript、CSSスタイリング、AJAX呼び出しを実行できるヘッドレスツールで、アクセス時にアクセスされたさまざまなURLを吐き出します。

私はこれが背の高い注文であることを認識していますが、おそらくそれはどこかに存在しますか?

答えて

7

これらのもののために作られたhttp://htmlunit.sourceforge.net/での使用をお勧めします。

+1

htmlユニットはそれほど実際にはわかりませんでした。私はそれだけでhtmlをつかんだ。ありがとう! –