html-bodyの外にあるテキストを抽出する

html html本文の外側にあるものを抽出できます。例えば、セルフリーのwebdriver を使用してタグを取得することはできません。私は下のページソースからEntity_IDを抽出したいと思います。html-bodyの外にあるテキストを抽出する

<!DOCTYPE html ......"> 
<html xml:lang="en" lang="en" dir="ltr"> 
<head> 
    </head> 
    <body> 
     <form....> 
     ...... 
     </form> 
    </body> 
    <!-- 
    Host Name: ********.com 
    Interaction ID: 111111111 
    Iteration: 1 
    Entity ID: 111111111111 
    ApplicationID: 11111111111 
    Image Location: ********** 
    Operating Environment: staging 
    Page Name: ************** 
</html>

出典

2017-11-02 A.Rock

参照してください：[私はXをどのように行うのですか？]（https://meta.stackoverflow.com/questions/253069/whats-the-appropriate-new-現在のクローズド・フォー・ハウ・フォー・ド・ハウ・フォー・ドゥ・ドゥ・ドゥー・イー・ドゥー・x）SOに関する期待は、質問をするユーザーが自分の質問に答えるだけでなく、その研究、コードの試行、結果を共有するということです。これは、時間をかけて自分自身を助けようとしていることを示しています。明白な回答を繰り返さないようにしてくれています。そして、より具体的で適切な答えを得ることができます。参考：[ask] – JeffC

使用WebDriver#getPageSource()方法：

 driver.get("http://your.page.com") 

     String pageSrc = driver.getPageSource(); 

     int idx = pageSrc.indexOf("Entity ID:"); 
     if(idx>= 0) { 
      System.out.println(pageSrc.substring(idx, pageSrc.indexOf("\n", idx))); 
     }

出典

2017-11-02 23:20:01 krokodilko

上記の解決策が働いた、ありがとう！ –

html-bodyの外にあるテキストを抽出する

答えて

関連する問題