2016-06-25 12 views
-1

私はこのhtmlページを持っています。特に特定のdivのコンテンツを取得できません

<div class="clearfix"> 
<div class="container left">  
    <div class="logo"> 
     <a href="/teams/belarus/fc-bate-borisov/200/"> 
     <img src="http://cache.images.core.optasports.com/soccer/teams/150x150/200.png" alt="FC BATE Borisov" /> 
     </a> 
    </div> 
    </div> 

    <div class="container middle"> 
    <div class="details clearfix"> 
     <dl> 
     <dt>Gara</dt> 
     <dd><a href="/national/belarus/premier-league/2016/regular-season/r34862/">Premier League</a></dd> 

     <dt>Data</dt> 
     <dd><a href="/matches/2016/06/25/"><span class='timestamp' data-value='1466877600' data-format='d mmmm yyyy'>25 giugno 2016</span></a></dd> 

     <dt>Game week</dt> 
     <dd>14</dd> 

     <dt>calcio di inizio</dt> 
     <dd> 
      <span class='timestamp' data-value='1466877600' data-format='HH:MM'>20:00</span> 
      (<span class="game-minute">FP'</span>) 
     </dd> 
     </dl> 
    </div> 

    <div class="details clearfix"> 
     <dl> 
     <dt>Stadio</dt> 
     <dd><a href="venue/">Borisov Arena (Barysaw (Borisov))</a></dd> 

     </dl> 
    </div> 

    </div> 

    <div class="container right"> 
    <div class="logo"> 
     <a href="/teams/belarus/fc-vitebsk/204/"> 
     <img src="http://cache.images.core.optasports.com/soccer/teams/150x150/204.png" alt="FC Vitebsk" /> 
     </a> 
    </div> 
    </div> 
</div> 
    </div> 
    </div> 
</div> 

calcio di inizio - game week - stadio

は、実は私はこの正規表現しようとしたタブ::私はこのdiv要素の次のような情報を抽出しようとしている<div[^<>]*class="clearfix"[^<>]*>(?<content>.*?)

を私はhttps://regex101.com/私にそれをテストするとき正規表現を実行することはできません。 divのクラスは複数のdivに関連付けられていると思うので、これが問題になる可能性があります。

また、それを取るためのクラスを持っていない、任意のアイデア?

+2

適切なHTMLパーサーを代わりに使用することを検討しましたか? –

+0

regexesでどうしたらいいのか[標準的な解答](http://stackoverflow.com/a/1732454)を見てください。今、あなたの質問に答えるために、あなたは[Xidel](http://www.videlibri.de/xidel.html)のようなものを使うかもしれません。おそらくこれは 'xidel -e '// div [@ class =" clearfix "]' file.html'です。 –

+0

あなたはお勧めしますか?私はしています。ネット –

答えて

0

あなたが(例えば「myDiv」)の内容を取得したいのdivにIDを追加した場合、あなたはそれがHTMLの内容だ返すために、次のJavaScript関数を実行できます。

document.getElementById("myDiv").innerHTML 

私はないですこれが正規表現ではないので、これがあなたが望むものであるかどうかを確かめてください。もしそうなら、これが助けてくれることを願っています!

+1

あなたはどのようにそれがJavascriptの質問であると確信していますか? –

+0

私はそうではありませんが、作者がhtmlを使用しているので、jsも使用している可能性があります。私は間違っているかもしれない – user31415

関連する問題