2017-11-02 11 views
0

html html本文の外側にあるものを抽出できます。例えば、セルフリーのwebdriver を使用してタグを取得することはできません。私は下のページソースからEntity_IDを抽出したいと思います。html-bodyの外にあるテキストを抽出する

<!DOCTYPE html ......"> 
<html xml:lang="en" lang="en" dir="ltr"> 
<head> 
    </head> 
    <body> 
     <form....> 
     ...... 
     </form> 
    </body> 
    <!-- 
    Host Name: ********.com 
    Interaction ID: 111111111 
    Iteration: 1 
    Entity ID: 111111111111 
    ApplicationID: 11111111111 
    Image Location: ********** 
    Operating Environment: staging 
    Page Name: ************** 
</html> 
+0

参照してください:[私はXをどのように行うのですか?](https://meta.stackoverflow.com/questions/253069/whats-the-appropriate-new-現在のクローズド・フォー・ハウ・フォー・ド・ハウ・フォー・ドゥ・ドゥ・ドゥー・イー・ドゥー・x)SOに関する期待は、質問をするユーザーが自分の質問に答えるだけでなく、その研究、コードの試行、結果を共有するということです。これは、時間をかけて自分自身を助けようとしていることを示しています。明白な回答を繰り返さないようにしてくれています。そして、より具体的で適切な答えを得ることができます。参考:[ask] – JeffC

答えて

0

使用WebDriver#getPageSource()方法:

 driver.get("http://your.page.com") 

     String pageSrc = driver.getPageSource(); 

     int idx = pageSrc.indexOf("Entity ID:"); 
     if(idx>= 0) { 
      System.out.println(pageSrc.substring(idx, pageSrc.indexOf("\n", idx))); 
     } 
+0

上記の解決策が働いた、ありがとう! –

関連する問題