2017-11-22 1 views
0

これはデータをスクラップしたいテーブルです。私はPHPのDOMを使用してそれをこすりすることができますが、問題は、私は唯一の日付をフェッチしたい - Vacent - 行。私は4日から試しましたが、運はありません。PHPを使用してIDとクラスを持たないテーブルデータをスクラップする

<table cellspacing="1" width="700px"> 
    <colgroup><col width="100px"> 
    <col width="100px"> 
    <col width="30px"> 
    <col width="30px"> 
    <col width="60px"> 
    <col width="40px"> 
    <col width="45px"> 

</colgroup><tbody><tr bgcolor="#d6d6d6"> 
    <th>From</th> 
    <th>To</th> 
    <th>In</th> 
    <th>Out</th> 
    <th>Name</th> 
    <th>Adults</th> 
    <th>Children</th> 
    <th>Comment</th> 
</tr> 

<tr> 

    <td nowrap="" style="border-bottom: 1px solid #888888">Nov Thu 23, 2017</td> 
    <td nowrap="" style="border-bottom: 1px solid #888888">Nov Fri 24, 2017</td> 
    <td colspan="6" style="border-bottom: 1px solid #888888; color: #3333ff; text-align: center">-- Vacant --</td> 


</tr> 


<tr> 


    <td nowrap="" style="border-bottom: 1px solid #888888">Nov Fri 24, 2017</td> 
    <td nowrap="" style="border-bottom: 1px solid #888888">Nov Mon 27, 2017</td> 
    <td nowrap="" style="border-bottom: 1px solid #888888">15:00&nbsp;</td> 
    <td nowrap="" style="border-bottom: 1px solid #888888">10:00&nbsp;</td> 
    <td nowrap="" style="border-bottom: 1px solid #888888">WILLIAMS, KEELY</td> 
    <td style="border-bottom: 1px solid #888888">4&nbsp;</td> 
    <td style="border-bottom: 1px solid #888888">0&nbsp;</td> 
    <td style="border-bottom: 1px solid #888888">&nbsp;</td> 

</tr> 


<tr> 

    <td nowrap="" style="border-bottom: 1px solid #888888">Nov Mon 27, 2017</td> 
    <td nowrap="" style="border-bottom: 1px solid #888888">Dec Thu 07, 2017</td> 
    <td colspan="6" style="border-bottom: 1px solid #888888; color: #3333ff; text-align: center">-- Vacant --</td> 


</tr> 


<tr> 


    <td nowrap="" style="border-bottom: 1px solid #888888">Dec Thu 07, 2017</td> 
    <td nowrap="" style="border-bottom: 1px solid #888888">Dec Sun 10, 2017</td> 
    <td nowrap="" style="border-bottom: 1px solid #888888">15:00&nbsp;</td> 
    <td nowrap="" style="border-bottom: 1px solid #888888">10:00&nbsp;</td> 
    <td nowrap="" style="border-bottom: 1px solid #888888">HALL, TYLER</td> 
    <td style="border-bottom: 1px solid #888888">4&nbsp;</td> 
    <td style="border-bottom: 1px solid #888888">0&nbsp;</td> 
    <td style="border-bottom: 1px solid #888888">&nbsp;</td> 

</tr> 


<tr> 

    <td nowrap="" style="border-bottom: 1px solid #888888">Dec Sun 10, 2017</td> 
    <td nowrap="" style="border-bottom: 1px solid #888888">Dec Sat 16, 2017</td> 
    <td colspan="6" style="border-bottom: 1px solid #888888; color: #3333ff; text-align: center">-- Vacant --</td> 


</tr> 
</tbody></table> 

"From"と "To"フィールドの値だけを取得したいとします。私はこのメソッドを使用したので、ここではIDまたはクラスはありませんでした。

$html = fetched HTML here; 

$pokemon_doc = new DOMDocument(); 

libxml_use_internal_errors(TRUE); //disable libxml errors 

if(!empty($html)){ //if any html is actually returned 

    $pokemon_doc->loadHTML($html); 
    libxml_clear_errors(); //remove errors for yucky html 

    $pokemon_xpath = new DOMXPath($pokemon_doc); 

    //get all the h2's with an id 
    $pokemon_row = $pokemon_xpath->query('//table//td[@style="border-bottom: 1px solid #888888"]'); 

    if($pokemon_row->length > 0){ 

     $oe = 1; 
     foreach($pokemon_row as $row){ 
      if ($oe % 2 == 0) { 
       //mysqli_query($con,"INSERT INTO booking VALUES('','','".(validateDate($row->nodeValue) ? $row->nodeValue : '')."')"); 
       echo (validateDate($row->nodeValue) && $row->nodeValue!='-- Vacant --' ? $row->nodeValue : '') . " | <br>"; 
      } else { 
       //mysqli_query($con,"INSERT INTO booking VALUES('','".(validateDate($row->nodeValue) ? $row->nodeValue : '')."','')"); 
       echo (validateDate($row->nodeValue) && $row->nodeValue!='-- Vacant --' ? $row->nodeValue : '') . " , <br>"; 
      } 

      $oe++; 
     } 
    } 
} else { 
    echo 'no html returend.'; 
} 


// Check date validate function 
function validateDate($date) 
{ 
    $d = DateTime::createFromFormat('M D d, Y', $date); 
    return $d && $d->format('M D d, Y') == $date; 
} 

問題は「空き」の日付は必要ありません。 私はこのコードを試しましたが、運はありません。

誰でも私を助けてください。おかげさまで

+0

私はPHPQueryを使用してお勧めしたい、それは、XPath – ArtisticPhoenix

答えて

1

これを短縮し、CLIでそれを使用するように書き直したが、これらのXPathクエリは、私の仕事:

$pokemon_row = $pokemon_xpath->query('//table//tr[not(contains(., \'-- Vacant --\'))]'); 

if($pokemon_row->length > 0) { 
    $oe = 1; 
    foreach($pokemon_row as $row) { 
     $nodeList = $pokemon_xpath->query('td', $row); 

     $fromNode = $nodeList->item(0); 
     $toNode = $nodeList->item(1); 

     echo 'From :'.(validateDate($fromNode->nodeValue) ? $fromNode->nodeValue : '') . PHP_EOL; 
     echo 'To :'. (validateDate($toNode->nodeValue) ? $toNode->nodeValue : '') . PHP_EOL; 

     $oe++; 
    } 
} 
+0

おかげで、男性よりもずっとましです。それは働いている。 \ ' - Vacant - \' @Benjamin –

+0

このクエリは " - Vacant - "文字列を含まない行だけを探しています。これらの行を持つと、スクリプトは最初の(0)と2番目の要素(td)のみを取得し、探していた日付を取得します。 –

+0

ええ、ありがとう@ベンジャミン –

関連する問題