2011-12-31 5 views
0

私は、自動取得のhtmlソースのコンテンツから動的にコンテンツを読み込む何かをしています。以前はRegexを使ってデータを取得していますが、私の友人の中にはDOMを使用した方が速くなるのですが、その理由は何ですか?DOM解析とRegexの間のパフォーマンス

答えて

3

DOMはHTMLを解析するように設計されています。 Regexを使ってHTMLを解析することについて投稿すると、このサイトで多くの人が作業するようになります(昨日、いくつかの記事を見ただけです)。 何をしているかによって、Regexを使ってHTMLから特定の項目を取得したり、HTMLに特定のタグがあるかどうかを調べたりしますが、データを取得したり、HTMLを解析しようとすると、優れたDOMパーサを使用するほうが良い。

PHP DOMパーサーは有効なHTMLを必要とするなど、使用するDOMパーサーの種類に注意する必要があります。そのため、HTMLを整理して期待通りになるまで整理しなければなりませんでした結果。 ここでは、無効なhtmlを処理できる単純なDOMパーサがあります:http://simplehtmldom.sourceforge.net/index.htm 私は、100%正ではないhtmlの要素属性を調べるために上記を使用しています。