私は新しいウェブサイトを手に入れようと努力しています。解析するには最良の方法を見つけることができません。PHPからWebページを解析する
私がやっていることは、コメント(最近3回)、 "whats new"ページ、権限ページ、右のバー(評価などがある)のためにthisウェブページを解析しようとしています。
私はparse_urlと他のいくつかのメソッドを見てきましたが、実際には何も実際には機能していません。
何か助けていただければ幸いです。前もって感謝します。
私は新しいウェブサイトを手に入れようと努力しています。解析するには最良の方法を見つけることができません。PHPからWebページを解析する
私がやっていることは、コメント(最近3回)、 "whats new"ページ、権限ページ、右のバー(評価などがある)のためにthisウェブページを解析しようとしています。
私はparse_urlと他のいくつかのメソッドを見てきましたが、実際には何も実際には機能していません。
何か助けていただければ幸いです。前もって感謝します。
私はそれを使用して素晴らしい作品です。リンクのサンプルが提供されています。私はこの仕事にDOMを使用することをお勧めします
致命的なエラー:行36の/home/content/08/8709208/html/Applications.phpの非オブジェクトのメンバー関数find()を呼び出します。 – Samuel
PHP SimpleXML拡張モジュールは、ここではあなたの友達です:http://php.net/manual/en/book.simplexml.php
、はい、下記の@xbonezで述べたように、実際のHTMLページを[fopen()](http://php.net/manual/en/function.fopen.php)または[cURL](http ://php.net/manual/en/book.curl.php)の拡張子でも、[file_get_contents()](http://php.net/manual/en/function.file-get-contents.php)でも許可されています(潜在的なセキュリティ上の脅威であるため、許可しないでください)。 –
parse_url
は、実際のURL(ないページURLのポイントへ)を解析します。
あなたがしたいことは、指し示しているウェブページを擦って、そこからコンテンツをピックアップすることです。 fopen
を使用する必要があります。これにより、ページのHTMLソースが得られ、次にHTMLを解析して必要なものを取得します。
免責事項:ページのスクラップは常に許可されているとは限りません。
は、ここでは、ウェブサイト内のすべてのURLを取得する例です。
$doc = new DOMDocument();
$doc->loadHTMLFile('http://www.theurlyouwanttoscrape.com');
foreach($doc->getElementsByTagName('a') as $item){
$href = $item->getAttribute('href');
var_dump($href);
}
私が唯一のソース内の1件のコメントを参照してください。 –
私はそれ以上のものを見て、名前を検索すると、彼らは表示されます – Samuel
ああ、あなたはHTMLコメントを意味すると思った。 –