2017-11-11 12 views
0

抽出テキスト、このHTMLを考えるとjsoup

<html> 
    <head></head> 
    <body> 
     <p> 
     "Text" 
     <br> 
     "Some more Text" 
     <br> 
     "Even more text" 
     </p> 
    </body> 
</html> 

私は§Element説明= document.select(______) `と<p>タグ内のテキストを取得しようとしています。どうすればこのテキストを入手できますか?私はボディを持っていないページでそれをすることができましたが、私はボディタグをどのように通過するのか分かりません。ありがとう。

答えて

0

セレクタ:pを使用してすべての<p>要素を抽出し、要素アクセッサ:text()を使用して各<p>要素内のテキストを読み取ることができます。

ここでは、あなたの質問に提供されたHTMLを使用した例です:

@Test 
public void canGetTextFromAPElement() { 
    String html = "<html> \n" + 
      " <head></head>\n" + 
      " <body>\n" + 
      "  <p>\n" + 
      "  \"Text\"\n" + 
      "  <br>\n" + 
      "  \"Some more Text\"\n" + 
      "  <br> \n" + 
      "  \"Even more text\"\n" + 
      "  </p>\n" + 
      " </body>\n" + 
      "</html>"; 

    Document doc = Jsoup.parse(html); 

    Elements elements = doc.select("p"); 

    assertThat(elements.size(), is(1)); 
    assertThat(elements.get(0).text(), is("\"Text\" \"Some more Text\" \"Even more text\"")); 
} 
関連する問題