すべてを抽出<a>コンテンツからタグ

ブロック内に表示するリンクテキストを含むいくつかのページ内のすべてのリンクを抽出します。私は正規表現を試しましたが、タグが修正パターンを持っていないので、正しい結果を得られません、彼らは様々な属性を持っています。私はPHPを使用します。すべてを抽出<a>コンテンツからタグ

どうすればいいですか？

出典

2011-07-04 hd.

あなたは** **このために正規表現を使用する必要はありません。 – ThiefMaster

DOMDocument::loadHTML。

が好き：DOMとgetElementsByTagNameの（）を使用しておよそ

$doc = new DOMDocument(); 
$doc->loadHTML($string); 
foreach($doc->getElementsByTagName('a') as $a) { 
    // do something with $a->textContent 
}

出典

2011-07-04 08:17:46

ありがとうございます。私のコードに追加してこのエラーが表示されます：：致命的なエラー：DOMElementクラスのオブジェクトを文字列に変換できませんでした –

loadHTML関数に渡すものは？ $ stringはhtmlの内容である必要があります –

html.the問題は私が$ a-> textContentではないecho $でした。 –

どのように？

http://php.net/domdocument

http://php.net/manual/en/domdocument.getelementsbytagname.php

出典

2011-07-04 08:19:20 wonk0

あなたはPHP:DOMDocument::getElementsByTagNameを使用して、指定されたタグを取得して試すことができます。 page.html内部

<a href="#">link1</a> 
<a href="#">link2</a> 
<a href="#">link3</a>

、これはあなたのPHPコードは次のとおりです：ここでは一例である

<?php 

$src = new DOMDocument('1.0', 'utf-8'); 
$src->formatOutput = true; 
$src->preserveWhiteSpace = false; 
$src->load('page.html'); 

$links = $src->getElementsByTagName('a'); 
?>

出典

2011-07-04 08:25:50

すべてを抽出<a>コンテンツからタグ

答えて

関連する問題