最近私はPythonでBeautifulSoupを使ってWebスクレイパーを開発しています。今、私はどのライブラリがJavaで最も好まれているか知りたいです。私はいくつかの検索を行いました。ほとんどがJTidyとJSoupです。それらの違いは何ですか?Java用JTidyまたはJsoup
5
A
答えて
11
JTidy
は、より一般的に、すなわち、整頓 HTMLに使用さ<div><span>text</div>
から<div><span>text</span></div
に、例えば、そのような閉じられていないタグとして、不正な又は不良HTMLを修正します。
JSoup
は、他の一方で、それのエキス部分にHTML とを解析する本格APIを提供します。 selectorsのようなjQueryを使用して要素を検索するか、getElementById
など、JavaScriptで使用する要素と同等のDOM
methodsを使用できます。 JSoupはJavaのBeautifulSoupに相当します。例えば、JSoupとWikipediaの記事の最初の段落を抽出するために、あなたは以下を使用することができ
:
String url = "http://en.wikipedia.org/wiki/Potato";
Document doc = Jsoup.connect(url).get();
Elements paragraphs = doc.select(".mw-content-ltr p");
String firstParagraph = paragraphs.first().text();
それとも、この非常に自身の質問からタイトルを抽出する:
Document doc = Jsoup.connect("http://stackoverflow.com/questions/12439078/jtidy-or-jsoup-for-java").get();
String question = doc.select("#question-header a").text(); // JTidy or Jsoup for Java
かなり良いAPI、ええ? :-)
関連する問題
- 1. はJsoupは、Java
- 2. jTidyとTagSoupのドキュメント
- 3. Java regex、jsoup
- 4. Java jsoupプリントクラスのテキスト
- 5. Jsoup - Javaを使用してウェブサイトにログイン
- 6. jTidy - 頭なしのプリティプリント、タイトルタグ
- 7. JTidyとのリンクの解析
- 8. Jsoupを使ったJava Web Scraping
- 9. Java jsoupのリンクの抽出
- 10. のJava Jsoupボタンの選択
- 11. TwitterでログインJsoup Java Androidで
- 12. JavaでJSoupを使用してCSSを解析します。
- 13. JsoupはXamarinまたはXamarinで利用可能ですか。フォーム
- 14. アンドロイドログイン使用jsoup
- 15. w3c HTML Validatorで使用されるJTidy(HTML-Tidy)構成
- 16. Java JSoup Exceptionはtry catchを無視しますか?
- 17. 間違った間隔の問題を引き起こす(JTidy)
- 18. Jsoup私はJsoupで、この情報を取得したいスパンクラス
- 19. Jsoup。私はJsoupでこれを解析するため
- 20. JSoupは、
- 21. JSOUPを使用したコンテンツの抽出
- 22. JSoupを使用したWebスクレイピングドロップダウンリスト
- 23. NetworkOnMainThreadException(Jsoupを使用)
- 24. javaでjsoupをインポートできません(IDEを使用していません)
- 25. Jsoup Java HTMLパーサー:javascriptイベントの実行
- 26. JavaでのJsoupライブラリ - Googleでのログ
- 27. Jsoup Java Htmlのスクレイピングが数字
- 28. Jsoup htmlパーズリージョンの言語設定java
- 29. Java Jsoup no instagram.comの結果なし
- 30. Java Jsoupウェブサイトのデータを盗む問題
関連:http://stackoverflow.com/questions/5183748/tagsoup-vs-jsoup-vs-html-parser-vs-hotsax-vs – Vadzim