2012-01-04 13 views
1

私は新しいウェブサイトを手に入れようと努力しています。解析するには最良の方法を見つけることができません。PHPからWebページを解析する

私がやっていることは、コメント(最近3回)、 "whats new"ページ、権限ページ、右のバー(評価などがある)のためにthisウェブページを解析しようとしています。

私はparse_urlと他のいくつかのメソッドを見てきましたが、実際には何も実際には機能していません。

何か助けていただければ幸いです。前もって感謝します。

+0

私が唯一のソース内の1件のコメントを参照してください。 –

+0

私はそれ以上のものを見て、名前を検索すると、彼らは表示されます – Samuel

+0

ああ、あなたはHTMLコメントを意味すると思った。 –

答えて

1

Simple HTML DOM

私はそれを使用して素晴らしい作品です。リンクのサンプルが提供されています。私はこの仕事にDOMを使用することをお勧めします

+0

致命的なエラー:行36の/home/content/08/8709208/html/Applications.phpの非オブジェクトのメンバー関数find()を呼び出します。 – Samuel

0

PHP SimpleXML拡張モジュールは、ここではあなたの友達です:http://php.net/manual/en/book.simplexml.php

+0

、はい、下記の@xbonezで述べたように、実際のHTMLページを[fopen()](http://php.net/manual/en/function.fopen.php)または[cURL](http ://php.net/manual/en/book.curl.php)の拡張子でも、[file_get_contents()](http://php.net/manual/en/function.file-get-contents.php)でも許可されています(潜在的なセキュリティ上の脅威であるため、許可しないでください)。 –

1

parse_urlは、実際のURL(ないページURLのポイントへ)を解析します。

あなたがしたいことは、指し示しているウェブページを擦って、そこからコンテンツをピックアップすることです。 fopenを使用する必要があります。これにより、ページのHTMLソースが得られ、次にHTMLを解析して必要なものを取得します。

免責事項:ページのスクラップは常に許可されているとは限りません。

2

は、ここでは、ウェブサイト内のすべてのURLを取得する例です。

$doc = new DOMDocument(); 
$doc->loadHTMLFile('http://www.theurlyouwanttoscrape.com'); 

foreach($doc->getElementsByTagName('a') as $item){ 
    $href = $item->getAttribute('href'); 
    var_dump($href); 
} 
関連する問題