2017-02-21 21 views
0

私はこのWebクローラーで作業していました。すべての抽出された1つのステートメントを2回印刷する点を除いて、正常に動作します。PHP Webクローラーは、すべてのステートメントを2度抽出しました

私はすべてのループでエコーを試みましたが、それはいくつかのアウトオブボックスの視点が必要なようです。

私のコードのようになります:要素は、Webページ上で二回存在するため、すべてのヘルプは高く評価され

<?php 
    require_once('dom/simple_html_dom.php'); 
    $html = file_get_html('https://www.uworld.com/Forum/topics.aspx?ForumID=1&gid=1'); 
    $elementCount=0; 
    foreach($html->find('h3.h3-forum-title a') as $element) { 
     $elementCount++; 
    $element->href = "http://www.studentdoc.com/phpBB2/" . $element->href; 
    echo '<li target="_blank" class="itemtitle">'; 
    if($elementCount < 5 && $elementCount > 2 && rand(0,1) == 1) { 
     echo '<span class="item_new">new</span>'; 
    } 
    echo $element; 
    echo '</li>';       
    if($elementCount==12){ 
      break; 
    } 
} 
?> 

..

+0

ulにliをラップしていませんか? –

+0

いいえ、折り返します。私はちょうどquesdtionでそれを追加しませんでした – harishk

答えて

0

問題が発生します。 のパラメータを次のように絞り込む必要があります。

foreach($html->find('div.hidden-lg div div div div h3.h3-forum-title a') as $element) { 
    // process the elements 
} 
関連する問題