2017-03-26 3 views
2

私は1つのhtmlページを解析し、htmlタグのクラス名またはIDを使用してテキストを取り出す必要があります。htmlタグのクラス名またはIDを使用して1つのhtmlページを解析してテキストを取り出す方法は?

Apache tikaまたはjsoup? htmlページの特定のタグ、ID、またはクラス名を使用してテキストを操作して取り出すことができるように、より多くのコントロールを持つツール名を教えてください。

+1

私は 'tika'については分かりませんが、' Jsoup'はあなたが期待していることを間違いなく実行します。 – soorapadman

答えて

1

私はあなたにJsoupを使用して、3つのユースケースの一例を作った、コード内のコメントを参照してください。

  • クラス名でのget div要素
  • は、タグ名
  • により、すべてのdiv要素を取得
  • IDによって要素を取得
String html = "..."; 
Document doc = Jsoup.parse(html); 

// get div elements by class name 
Elements divs = doc.select("div.myclass"); 
for (Element div : divs) { 
    // print containing text 
    System.out.println(div.text()); 
} 

// get all div elements by tag name 
divs = doc.getElementsByTag("div"); 
for (Element div : divs) { 
    // print containing text 
    System.out.println(div.text()); 
} 

// get element by id 
String id = "..."; 
Element element = doc.getElementById(id); 
System.out.println(element.text()); 
+0

コードをお寄せいただきありがとうございます。この回答を確認してマークします.. @ flavio-donze – rrsk

関連する問題