2017-04-08 5 views
0

私はDomXpathクエリを使用して、ページがブラウザによってレンダリングされたときにユーザーに表示されるテキストを含むファイル内のすべてのHTML要素を探します。コードのPHPでDomXpathを使用するとノードをスキップする

次の行は、かなりよくトリックを行う:

$xpath = new DOMXpath($doc); 
$results = $xpath->query("//text()"); 

は、しかし、いくつかの副作用があります。あなたがHTMLに

<style> 

タグを持っている場合たとえば、それは内部で読み、すべてのCSS要素を解析し、私は完全にそれを無視したいと思います。私は1つ以上のテキスト要素を無視する上記のクエリを形成する方法を見つけることができないようです。どんな助けもありがとう。

答えて

0

<style>タグを避ける方法を見つけました。

$results = $xpath->query("//body//text()") 

これは、HTMLファイルの本文より前のものは無視します。