私はHttpClientを使用して特定のWebサイトにアクセスし、その応答はHTML形式です。どのパーサーまたはメソッドをパーサに使用するかHTMLを使用して、応答から必要なものを取得する必要があります。 注:JavaでHttpClientを使用していますHTML Parser for response - Java
2
A
答えて
4
jsoupを使用しています。
jsoup
は、現実世界のHTMLを扱うためのJavaライブラリです。 は、DOM、CSS、およびjqueryのようなメソッドを使用して、データの抽出と操作に非常に便利なAPI、 を提供します。
jsoup
は、WHATWG HTML5仕様を実装しており、最新のブラウザと同じDOMをHTMLとして解釈します( )。
- スクレープやURL、ファイル、または文字列
- 検索や抽出データからHTMLを解析し、DOMのトラバーサルやCSSセレクタを使用すると、
- HTML要素を操作、属性、およびテキスト
- クリーンUSER-
- XSS攻撃を防ぐための安全なホワイトリストに対して提出されたコンテンツ、きちんとHTML
jsoupは、Oすべての品種を扱うために設計されて出力f 野生で見つかったHTML;元の状態から検証して、無効なタグ - スープにする。 jsoup は、分かりやすい構文解析ツリーを作成します。
1
私はhtmlcleanerを試してみます。
HTMLCleanerは、Web上で見つかったHTMLを安全に解析して整形式XMLに変換するためのJavaライブラリです。それは小さく、速く、柔軟で独立しているように設計されています。 HtmlCleanerは、Javaコード、コマンドラインツール、またはAntタスクとして使用できます。構文解析の結果は、DOMやJDomのような標準に簡単に変換でき、あるいは様々な方法(コンパクト、きれいな印刷など)でXML出力にシリアル化された軽量のドキュメントオブジェクトモデルです。
あなたは、XML/HTML tags.Here内のコンテンツを取得するためにhtmlcleanerでXPath
を使用することができますjsoupとJava8とXpath Example
0
素敵
例であるサンプルコード:
// Imports:
...
import java.nio.charset.StandardCharsets;
import org.apache.commons.io.IOUtils;
...
// Execute the GET request:
...
HttpClient clientGet = HttpClientBuilder.create().build();
HttpGet get = new HttpGet(url);
HttpResponse res = clientGet.execute(get);
// Use jsoup to parse the html response:
// E.g. find all links with reference to myapp:
// <a href="myapp">HelloWorldApp</a>
Document doc = Jsoup.parse(IOUtils.toString(res.getEntity().getContent(), StandardCharsets.UTF_8));
Elements links = doc.select("a[href~=myapp]");
for (Element link : links)
String appName = link.html();
...
関連する問題
- 1. C++ Parser/Java for Model
- 2. Haskell Parsec Parser for Encountering [...]
- 3. YAML Parser for Excel VBA
- 4. jQuery TableSorter Parser for Europe
- 5. BeautifulSoup Parser Confusion - HTML
- 6. OData 4.x Parser for .NET
- 7. ForループのMVC3 Razor Parserエラー
- 8. Request-Response API for Android Wear 2.0?
- 9. Java RTF Parser
- 10. Java DOM Parser XML
- 11. Java XML Parser問題
- 12. react-html-parser unexpected error
- 13. .Net WikiText to HTML Parser
- 14. Java curl response
- 15. Java Json Parser配列
- 16. 以下の必要条件を満たすParser、Generator for Java
- 17. java DOM XML Parserインナーエレメント
- 18. Stanford Parser for Python:出力形式
- 19. PHP - シンプルなHTML Dom Parser
- 20. プレーンなStringメソッドを使用したJava Parser HTML?
- 21. AsyncTask for Jsoup Parserの使い方は?
- 22. Jericho HTMLパーサーはGoogle App Engine for Javaで動作しますか?
- 23. AndroidでJava Pull Parserを理解しようとする - Java
- 24. TDD for IMDB htmlスクレーパー
- 25. BeautifulSoup Parser Library
- 26. SBJSON Parser Memory Leak
- 27. Java Collada Parser - XMLプルベースの実装
- 28. Kotlin Json Parser
- 29. SEO for html single-page site for quasi-html content
- 30. XMLHttpRequest no response
可能重複[どのHTMLパーサーが最適ですか?](http://stackoverflow.com/questions/2168610/which-html-parser-is-best) –
私は両方をアップしました。 Javaライブラリのhtml解析はひどいです。他の何かが良いでしょう。 – Bill