2016-07-09 19 views
2

bodyタグの各ノードの文字数とタグ数をカウントしたいと思います。後で、この数の文字とタグを使用して、各タグの密度を取得します。本文を取得するには、関数find()をPHP Simple HTML DOM Parserから使用します。PHPを使用してbody内のすべてのhtmlタグを抽出する

function FindBody($str) { 
// String --> DOM Elements 
$string = str_get_html($str); 
// Find body 
$e = $string->find('body'); 
file_put_contents('text_1.txt', $e); } 

上記のスニペットは次のような出力が得られます:身体は毎回異なりますが、私のリンクからHTMLを取得

<body class="html not-front not-logged-in one-sidebar sidebar-first page-node page-node- page-node-163472 node-type-article page- page- ltr"><div id="skip-link"> <a href="#main-content" class="element-invisible element-focusable">Skip to main content</a>..... </body>

。今、私は立ち往生しています。私は各タグを取得するために/再帰的に反復する方法を知らない。私はどこかに読んだことがありますが、再帰的に行うことはできますが、それには多くの時間がかかります。

私はこれをアルゴリズムに従っているので、DOMを使用する必要があります。

+0

一つの実用的な技術を使用しない** XSLTを使用することである理由。**これは実際にあなたが「クエリ」XMLのような構造を可能にすることを宣言型言語であります。私が意味することをもっと理解するために、「Google it」に任せておきます。しかし基本的には、複雑なXML/XHTMLソースから情報を取得するために、「複雑なプログラムを書く」必要はありません。 –

+0

各ノードの文字数は正確にどういう意味ですか? – revo

答えて

0

あなただけのテキストをカウントしたい場合は、strip_tags

関連する問題