Googleのサイトで無効なURLを検出するために、Javaで書かれたクロールツールを探しています。クロールのためのヘッドレスJava HTTPクライアント?
難しいのは、URLの多くがjavaScript、CSS3、Ajaxで行われていることです。だから、サイトのURLのコンテンツを取得するだけではできません。
理想的なのは、javaScript、CSSスタイリング、AJAX呼び出しを実行できるヘッドレスツールで、アクセス時にアクセスされたさまざまなURLを吐き出します。
私はこれが背の高い注文であることを認識していますが、おそらくそれはどこかに存在しますか?
htmlユニットはそれほど実際にはわかりませんでした。私はそれだけでhtmlをつかんだ。ありがとう! –