2011-08-01 38 views
3

特定のタグのHTMLを解析するPHPスクリプトを作成したいと考えています。私はこのtutorialから適応このコードブロックを、使用してきました:file_get_contentsスクリプトは一部のWebサイトでは動作しますが、他のWebサイトでは動作しません。

<?php 
$data = file_get_contents('http://www.google.com'); 
$regex = '/<title>(.+?)</'; 
preg_match($regex,$data,$match); 
var_dump($match); 
echo $match[1]; 
?> 

スクリプトは、(上記のグーグル、など)いくつかのウェブサイトで動作しますが、私は他のウェブサイト(のような、たとえば、freshdirect)でそれをしようとすると、このエラーが発生しました:

"警告:file_get_contents(function:file-get-contents):ストリームを開くことに失敗しました:HTTP要求に失敗しました!

StackOverflowでsuggestionsという素晴らしいものを見てきました。たとえば、extension=php_openssl.dllをphp.iniで有効にしました。しかし、(1)私のphp.iniのバージョンにextension=php_openssl.dllがなく、(2)拡張セクションに追加してWAMPサーバーを再起動したときには、このthreadにもかかわらず、まだ成功しませんでした。

誰かが正しい方向に私を向けるのでしょうか?どうもありがとうございました!

+1

たぶん、この1のようなカールを見て:http://stackoverflow.com/questions/697472/file-get-contents-returning-failed-to-open-stream-http-request-failed – MaxiWheat

答えて

3
$html = file_get_html('http://google.com/'); 
$title = $html->find('title')->innertext; 

それともするpreg_matchで好むとあなたは本当にそれだけでユーザーエージェントを(「任意の」は、本当に、任意の文字列があればよい)が必要です...

function curl($url){ 

    $headers[] = "User-Agent:Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.2.13) Gecko/20101203 Firefox/3.6.13"; 
    $headers[] = "Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8"; 
    $headers[] = "Accept-Language:en-us,en;q=0.5"; 
    $headers[] = "Accept-Encoding:gzip,deflate"; 
    $headers[] = "Accept-Charset:ISO-8859-1,utf-8;q=0.7,*;q=0.7"; 
    $headers[] = "Keep-Alive:115"; 
    $headers[] = "Connection:keep-alive"; 
    $headers[] = "Cache-Control:max-age=0"; 

    $curl = curl_init(); 
    curl_setopt($curl, CURLOPT_URL, $url); 
    curl_setopt($curl, CURLOPT_HTTPHEADER, $headers); 
    curl_setopt($curl, CURLOPT_ENCODING, "gzip"); 
    curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); 
    curl_setopt($curl, CURLOPT_FOLLOWLOCATION, 1); 
    $data = curl_exec($curl); 
    curl_close($curl); 
    return $data; 

} 


$data = curl('http://www.google.com'); 
$regex = '#<title>(.*?)</title>#mis'; 
preg_match($regex,$data,$match); 
var_dump($match); 
echo $match[1]; 
+0

あなたは[より速い選択肢の広場]の間に選択肢がない場合にのみ、シンプルなHTML DOMを使用してください(http://stackoverflow.com/questions/3577641/best-methods-to-parse-html-with-php/3577662# 3577662) – Wrikken

+0

@Wrikken、どんな意味で早い? –

+0

DOMの解析と一般的なDOMの検索/変更(ただし、DOMには使用されていない場合は実際の変更を行うほうが冗長かもしれません。したがって、simplehtmldomと同じくらい簡単にするパッケージを使った回答へのリンクですより速い処理のためにはdom/libxml)。 – Wrikken

3

代わりFGCのカールを使用する必要がある場合:

file_get_contents("http://www.freshdirect.com",false,stream_context_create(
    array("http" => array("user_agent" => "any")) 
)); 

more optionsを参照してください。もちろん

、あなたはあなたのiniにuser_agentを設定することができます。

ini_set("user_agent","any"); 
echo file_get_contents("http://www.freshdirect.com"); 

を...しかし、私はそれに取り組んで次のプログラマのための明示的なことを好みます。

+0

ありがとう - 大変感謝しています! –

0

もう1つのオプション:ホストによってはCURLOPT_FOLLOWLOCATIONが無効になっているので、再帰的な処理が必要なので、テキストファイルにもエラーが記録されます。 DOMDocument()を使用してコンテンツを抽出する方法の簡単な例は、明らかにその広範なものではなく、apponを構築することができるものです。

<?php 
function file_get_site($url){ 
(function_exists('curl_init')) ? '' : die('cURL Must be installed. Ask your host to enable it or uncomment extension=php_curl.dll in php.ini'); 
$curl = curl_init(); 
$header[0] = "Accept: text/xml,application/xml,application/xhtml+xml,"; 
$header[0] .= "text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5"; 
$header[] = "Cache-Control: max-age=0"; 
$header[] = "Connection: keep-alive"; 
$header[] = "Keep-Alive: 300"; 
$header[] = "Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7"; 
$header[] = "Accept-Language: en-us,en;q=0.5"; 
$header[] = "Pragma: "; 

curl_setopt($curl, CURLOPT_URL, $url); 
curl_setopt($curl, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 5.1; rv:5.0) Gecko/20100101 Firefox/5.0 Firefox/5.0'); 
curl_setopt($curl, CURLOPT_HTTPHEADER, $header); 
curl_setopt($curl, CURLOPT_HEADER, true); 
curl_setopt($curl, CURLOPT_REFERER, $url); 
curl_setopt($curl, CURLOPT_ENCODING, 'gzip,deflate'); 
curl_setopt($curl, CURLOPT_AUTOREFERER, true); 
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true); 
curl_setopt($curl, CURLOPT_TIMEOUT, 60); 

$html = curl_exec($curl); 

$status = curl_getinfo($curl); 
curl_close($curl); 

if($status['http_code']!=200){ 
    if($status['http_code'] == 301 || $status['http_code'] == 302) { 
     list($header) = explode("\r\n\r\n", $html, 2); 
     $matches = array(); 
     preg_match("/(Location:|URI:)[^(\n)]*/", $header, $matches); 
     $url = trim(str_replace($matches[1],"",$matches[0])); 
     $url_parsed = parse_url($url); 
     return (isset($url_parsed))? file_get_site($url):''; 
    } 
    $oline=''; 
    foreach($status as $key=>$eline){$oline.='['.$key.']'.$eline.' ';} 
    $line =$oline." \r\n ".$url."\r\n-----------------\r\n"; 
    $handle = @fopen('./curl.error.log', 'a'); 
    fwrite($handle, $line); 
    return FALSE; 
} 
return $html; 
} 


function get_content_tags($source,$tag,$id=null,$value=null){ 
    $xml = new DOMDocument(); 
    @$xml->loadHTML($source); 

    foreach($xml->getElementsByTagName($tag) as $tags) { 
     if($id!=null){ 
      if($tags->getAttribute($id)==$value){ 
       return $tags->getAttribute('content'); 
      } 
     } 
     return $tags->nodeValue; 
    } 
} 


$source = file_get_site('http://www.freshdirect.com/about/index.jsp'); 

echo get_content_tags($source,'title'); //FreshDirect 

echo get_content_tags($source,'meta','name','description'); //Online grocer providing high quality fresh...... 

?> 
+0

ありがとう@lawrence! –

関連する問題