2012-01-16 4 views
-2

<body>から始まり、</body>で終わるHTMLページの内容をPHPで抽出する方法はあります。サンプルコードを投稿できる人がいればPHPのhtmlページの内容を抽出する

+0

多くのウェブサイトのクロールに関する質問の1つを参照してください。 – Dunhamzzz

+0

[PHPでHTMLを解析し処理する方法]の複製が可能ですか?(http://stackoverflow.com/questions/3577641/how-to-parse-and-process-html-with-php) – CodeCaster

答えて

5

を試してみてください。

この例では、HTMLドキュメントを読み込むDOMDocumentを作成し、bodyタグを取得します。

libxml_use_internal_errors(true); 
$dom = new DOMDocument; 
$dom->loadHTMLFile('http://example.com'); 
libxml_use_internal_errors(false); 

$body = $dom->getElementsByTagName('body')->item(0); 

echo $body->textContent; // print all the text content in the body 

あなたはまた、次のリソースをチェックアウトする必要があります:

DOM API Documentation
XPATH language specification

0

することができますまた、strpos関数に基づいて非DOMソリューションを使用してみてください:

$html = file_get_contents($url); 
$html = substr($html,stripos($html,'<body>')+6); 
$html = substr($html,0,strripos($html,'</body>')); 

striposstrriposstrposの鈍感「右端」バージョンである場合、strposの大文字と小文字を区別しないバージョンです。

それがあなたを助けてくれることを願っています!

関連する問題