bodyタグの各ノードの文字数とタグ数をカウントしたいと思います。後で、この数の文字とタグを使用して、各タグの密度を取得します。本文を取得するには、関数find()をPHP Simple HTML DOM Parserから使用します。PHPを使用してbody内のすべてのhtmlタグを抽出する
function FindBody($str) {
// String --> DOM Elements
$string = str_get_html($str);
// Find body
$e = $string->find('body');
file_put_contents('text_1.txt', $e); }
上記のスニペットは次のような出力が得られます:身体は毎回異なりますが、私のリンクからHTMLを取得
<body class="html not-front not-logged-in one-sidebar sidebar-first page-node page-node- page-node-163472 node-type-article page- page- ltr"><div id="skip-link"> <a href="#main-content" class="element-invisible element-focusable">Skip to main content</a>..... </body>
。今、私は立ち往生しています。私は各タグを取得するために/再帰的に反復する方法を知らない。私はどこかに読んだことがありますが、再帰的に行うことはできますが、それには多くの時間がかかります。
私はこれをアルゴリズムに従っているので、DOMを使用する必要があります。
一つの実用的な技術を使用しない** XSLTを使用することである理由。**これは実際にあなたが「クエリ」XMLのような構造を可能にすることを宣言型言語であります。私が意味することをもっと理解するために、「Google it」に任せておきます。しかし基本的には、複雑なXML/XHTMLソースから情報を取得するために、「複雑なプログラムを書く」必要はありません。 –
各ノードの文字数は正確にどういう意味ですか? – revo