Webページからコンテンツを抽出し、Javaを使って比較する

私は、Webページからコンテンツ[text、image、color]を抽出して別のWebページと比較する必要があるサブモジュールを持つJavaプロジェクトを開発しています。私はWebページをローカルでダウンロードするためにWinHTTrackソフトウェアを使用する予定ですが、HTMLとして保存しないという問題があります。 WinHTTrackなどのソフトウェアを使用してHTML拡張子を持つWebページをダウンロードするにはどうすればいいですか？ctrl + sでWebページを保存するだけですか？また、Webページをローカルにダウンロードした後、HTML Parserを使用して3つのコンテンツタイプ[text、image、color]を抽出する予定です。だからパーサーと一緒に行くのですか？Webページからコンテンツを抽出し、Javaを使って比較する

出典

2012-03-06 rakesh

私はHttrackを使用し、htmlファイルも取得します。おそらくWinHttrackのプロジェクトファイルを唯一の出力ファイルとして受け取っていますが、プロジェクトディレクトリの中にhtmlファイル（画像などと一緒に）が入っているかどうかを確認してください。私は - http://htmlparser.sourceforge.net/を使用することをお勧めします。これはJavaライブラリであり、あなたのプロジェクトはJavaプロジェクトなので、それを使用するのはかなり簡単です。 org.htmlparser.parserapplications.SiteCapturerを使用してウェブサイト全体をローカルに保存することもできます（画像などのリソースも同様にキャプチャするかどうかを指定します）。それが役に立てば幸い。

出典

2012-03-06 07:46:24 aretai

ありがとうございます。あなたが言ったように、HTTrackのディレクトリの中で私はそれをチェックします。パーサーに関しては、私も "HTMLParser"について良いコメントを読んでいます。さて、私はそれを使い始めると、あなたに知らせます。比較のために、私はテキスト、画像、ウェブページの色を別のものと比較することを意味します。 – rakesh

うれしい私は助けることができます。比較は別のケースですので、別の質問をする必要があります – aretai

もう一度質問します。 HTMLParserを使用してページをローカルディスクにダウンロードした後にコンテンツを抽出する方法を説明できますか？ – rakesh

Webページからコンテンツを抽出し、Javaを使って比較する

答えて

関連する問題