私は、Webページからコンテンツ[text、image、color]を抽出して別のWebページと比較する必要があるサブモジュールを持つJavaプロジェクトを開発しています。私はWebページをローカルでダウンロードするためにWinHTTrackソフトウェアを使用する予定ですが、HTMLとして保存しないという問題があります。 WinHTTrackなどのソフトウェアを使用してHTML拡張子を持つWebページをダウンロードするにはどうすればいいですか?ctrl + sでWebページを保存するだけですか?また、Webページをローカルにダウンロードした後、HTML Parserを使用して3つのコンテンツタイプ[text、image、color]を抽出する予定です。だからパーサーと一緒に行くのですか?Webページからコンテンツを抽出し、Javaを使って比較する
0
A
答えて
1
私はHttrackを使用し、htmlファイルも取得します。おそらくWinHttrackのプロジェクトファイルを唯一の出力ファイルとして受け取っていますが、プロジェクトディレクトリの中にhtmlファイル(画像などと一緒に)が入っているかどうかを確認してください。私は - http://htmlparser.sourceforge.net/を使用することをお勧めします。これはJavaライブラリであり、あなたのプロジェクトはJavaプロジェクトなので、それを使用するのはかなり簡単です。 org.htmlparser.parserapplications.SiteCapturerを使用してウェブサイト全体をローカルに保存することもできます(画像などのリソースも同様にキャプチャするかどうかを指定します)。それが役に立てば幸い。
関連する問題
- 1. BeautifulSoupを使ってWebページからテキストを抽出する
- 2. 複数のWebページからコンテンツを抽出する方法は?
- 3. WebページからPythonを使用してセクションを抽出する
- 4. Webページを解析してコンテンツを抽出する
- 5. Jsoupを使用してWebページから情報を抽出
- 6. Web廃棄 - pythonを使用してページからデータを抽出
- 7. Postgresからのタプルがレールを使ってWebページに抽出されない
- 8. excel vbaを使用してWebページのJavaスクリプト値を抽出する方法
- 9. PHPを使用してPDFからコンテンツを抽出する
- 10. Jsoupを使用してWebページからXMLリンクを抽出する
- 11. Selenium Pythonを使用してWebページからSVGを抽出する
- 12. Google Appスクリプトを使用してWebページの表から値を抽出する
- 13. Pythonを使用してWebページからCSVファイルにテーブルを抽出します
- 14. JSOUPを使用してWebページからリンクを抽出します
- 15. Javaを使用してWebページのURLからクエリ文字列を抽出する方法
- 16. 文字列を抽出して日付と比較する
- 17. HTMLページからローカライズ可能なコンテンツを抽出する
- 18. PHPを使用してPDFファイルからページを抽出する
- 19. 純粋なJavaを使用してHTML文書からxpathを使用してコンテンツを抽出する
- 20. HttpResponseMessageからコンテンツを抽出します
- 21. リストと比較したデータフレームからの文字列の抽出
- 22. JavaScriptを使ってWebページのHTMLデータをXMLに抽出するには?
- 23. htmlsourceからdivコンテンツを文字列で抽出する(Java)
- 24. javaを使用してmp4から画像を抽出する
- 25. cefsharpのWebページからリンクを抽出します
- 26. JavaFX2 WebViewからコンテンツを抽出する
- 27. MHTドキュメントからコンテンツを抽出する
- 28. StringTokenizerから抽出した文字列を比較する方法
- 29. beautifulsoupから抽出した変数の値を比較するステートメントが
- 30. SSEを使用した比較と抽出
ありがとうございます。あなたが言ったように、HTTrackのディレクトリの中で私はそれをチェックします。パーサーに関しては、私も "HTMLParser"について良いコメントを読んでいます。さて、私はそれを使い始めると、あなたに知らせます。比較のために、私はテキスト、画像、ウェブページの色を別のものと比較することを意味します。 – rakesh
うれしい私は助けることができます。比較は別のケースですので、別の質問をする必要があります – aretai
もう一度質問します。 HTMLParserを使用してページをローカルディスクにダウンロードした後にコンテンツを抽出する方法を説明できますか? – rakesh