2012-03-18 6 views
0

テーブルの最初の列からhttp://www.pferd-aktuell.de/fn-service/pferdebranchenbuch/kategorie-uebersicht/13/FN-Vereineという名前とURLを取得し、次にNEXTボタンをたどって、すべての利用可能なページから名前とそのURLをすべて取得します。私はこのようなことを試して、何も出力しません。PHP SimpleHTMLDom抽出

<?php 

include('simplehtmldom/simple_html_dom.php'); 
ini_set('max_execution_time', 1800); 

$url = 'http://www.pferd-aktuell.de/fn-service/pferdebranchenbuch/kategorie-uebersicht/13/FN-Vereine'; 
$html = file_get_html($url); 
$file = 'Titels.txt'; 

    if (!$fp = fopen($file, 'a+')) { 
     echo "Cannot open file ($file)"; 
     exit; 
     } 
    else { 
     for ($i=1; $i<=25; $i=$i+1) 
     { 
      $ret = $html->find('td[class]="withBorder bold"', $i); 
      fwrite($fp, $ret->plaintext."\n"); 
     } 
    } 

}

TITELとURLを抽出した後、私は、それらのURLの各々を介してナビゲートを計画し、そこからあまりに(Ortと、電子メールなどのような)いくつかのdivを抽出することができます。

私を開始するためのサンプルコードはありますか?

+0

上記のコードから、あなたは間違いなく正しい軌道に乗っています。 [次へ]ボタンが指すURLを検索し、必要なものをページから抽出する関数に渡します。 – xbonez

答えて

0

:)をして下さい検索()の呼び出しは、おそらく次のようになります。

$ret = $html->find('td[class="withBorder bold"]', $i); 
               ^---note the new location 

書かれたとして、あなたはは無意味= html要素に続くクラス属性を持つ任意のTDを探しています。

+0

さて、それは今働いた:)しかし、それは...それは特別なドイツの文字を傷つける。これらのBERLINER KLEINPFERDEVEREIN E.V.あなたは、 Sportm、GlashüterterPSV OberFr.dorf e。 V.ドイツ語の文字はどのように保持しますか? –

+0

ちょうどそれはまたすべての25を返しませんが、ちょうど11に気づいた。私はなぜ知っていない。まだチェックしています...また、ページネーションをどのように処理しますか? –

+0

出力に 'Ã'が出るということは、おそらくiso-8859-1という別の文字セットとしてUTF-8テキストが表示されていることを意味します。レンダリングパイプライン全体がutf-8に設定されていることを確認してください。 –