URLを入力とし、css、images、js(すべての関連リソース)を含むWebページ全体をディスクに保存するjavaメソッドを実装したいと考えています。私はJsoup htmlパーサを使ってhtmlページを取得しています。今私が実装しようとしている唯一のオプションは、jsoupを使用してページを取得し、HTMLコンテンツを解析して相対パスを絶対パスに変換し、別のjavascriptや画像などの要求を作成してディスクに保存することです。 私はHTMLクリーナー、htmlunitパーサーについても読んでいますが、これらのすべてのケースでは、画像、CSS、およびJavaScriptファイルを取得するためにHTMLコンテンツを解析する必要があると思います。Javaコードを使用して完全なWebページを取得する
私は正しいかどうかについてアドバイスします。 またはこのタスクを達成するための簡単な方法はありますか?
私はSOにいくつかの同様の質問を見つけたが、この質問に対する答えはまだ未解決である:( – sachinjain024
あなたの思考が正確に右であるあなたは、Apache Nutchのためのソースコードの一部を見たいかもしれません;。検索していますindexing部はWebページを取得し、リンクをスキャンします(他にもたくさんあります)。あなたが望むコードは、類似していても同じではありません。 –
これはどのように修正しましたか? –