2012-04-29 10 views
-2

コード:抽出テキスト - シンプルなHTML DOMパーサ

$html = file_get_html('http://url.com'); 
$ret = $html->find('div[samplediv]'); 
echo $ret; 

は私が手出力は単なる配列です。それは空であることを意味します。私は、私が掻いているページにdivが設定されていると確信しています。

また、私が達成しようとしているもう一つのことは、HTMLからテキストを取ることです。私はそれを平文に変換するだけで、多くの不必要な数字やものが発生します。だから私がしようとしているのは、ブラウザに表示されているテキストを取得することです。 (HTMLから全体のテキストを取得する代わりに)。

すべての提案を歓迎します。

+0

を見つけ、あなたは$のhtmlの代わりにRET $をエコーすることを意味しましたか?また、$ ret-> plaintextも動作するはずです。 – pdizz

+0

単純なhtml DOMパーサの代わりに 'DOMDocument'を使うことをお勧めします。これははるかに良く機能し、文書化されやすく、拡張が容易です。また、 'error_reporting(〜0);を実行する必要があります。ファイルの先頭にini_set( 'display_errors'、1);を置き、警告と通知を修正してください。それは最終的にあなたにもあなたの質問への答えを与えるでしょう。 – hakre

+0

'$ html-> find( 'div [id = samplediv]');'あなたが入れたものが間違っていると思います。 – Ricki

答えて

8

文書全体を出力しているようです。

echo $ret->innertext; 

出力するだけでdivの内容を出力できます。

PS:私はちょうどGoogleででこれを見上げるとhttp://simplehtmldom.sourceforge.net/manual.htm

+0

答えを更新しました。 Array以外は何も返しません。 Innertextで、何も返しません。 – Kishor

+0

エコーが "配列"を出力するとき、変数が文字列ではないことを意味します(しかし、配列です)。 – Umbrella

+0

ええ、同じ考えをして、print_rを試してArray()を返しました – Kishor

関連する問題