PHPでテキストを取得するシンプルなHTML DOMパーサー

私はPHPのシンプルなHTML DOMパーサーを使ってウェブページからテキストを取得しています。私はh1要素とタグがありませんテキストを取得する必要がありますPHPでテキストを取得するシンプルなHTML DOMパーサー

<html> 
<head> 
<title>title</title> 
<body> 
<div id="content"> 
<h1>HELLO</h1> 
Hello, world! 
</div> 
</body> 
</html>

：私は操作する必要がページのようなものです。

$html = file_get_html("remote_page.html"); 
foreach($html->find('#content') as $text){ 
echo "H1: ".$text->find('h1', 0)->plaintext; 
}

しかし、他のテキスト：は、私はこのコードを使用h1を取得しますか？私もforeachのにこれを試してみましたが、私は、フルテキストを取得：私はしかし、$text->find('text',2);あなたが探しているものを取得するように見えます...

なぜ 'plaintext'メンバーを別のものを返すように展開していますか？ – hakre

「Hello、World！」だけが必要です。それは可能ですか？ –

私はそうだと思いますが、シンプルなHTML DOMパーサーは推奨できませんが、['DOMDocument']（http://php.net/DOMDocument）だけです。 ' - > nodeValue'となります。 – hakre

を

$text->plaintext;

をそれはまたH1タグを返さテキストノードの量が不明なときにどれくらいうまくいくかわかりません。私は見続けるだろう。

2012-03-24 19:00:06

それは動作しません。ページに何も印刷されていません... –

@Peachyが指摘したようにあなたは、単に、strip_tags

<?php 
strip_tags($input, '<br>'); 
?>

2016-12-14 03:41:41 Peachy

なぜ '
'タグ？ OPはすべてのタグが剥奪される必要があると言いました。 – NonCreature0714

は空白のままにすることができます。 – Peachy

利用ストリップタグを使用してHTMLタグを取り除くことができます。しかし、2番目の引数<br>を渡すと、文字列はを無視します。<br>タグは不要です。あなたが好きなあなたのケースでは、

<?php 
    strip_tags($text); 
?>

はあなただけcontent IDでコンテンツを選択していることを考えると、働くだろう。

2016-12-14 04:05:47 NonCreature0714

答えて