2009-08-25 12 views
0

私は、HTMLコード(およびコードで指定されたCSS)をDOMツリーに変換して、より簡単な解析を行うC#ライブラリを探しています。私はこれに似たものを探しています(PHPにあります): http://simplehtmldom.sourceforge.net/DOMライブラリへのHTML

私はブラウザコントロールを埋め込むことができますが、私はもっと効率的なものを探しています。

答えて

3

HTML Agility Packをチェックしてください。しばらくのうちに更新されていませんが、それでもうまくいきます。

+0

私は実際にそれを見ていました。私はCSSスタイルのサポートを見ていない。ですから、私がDIVを持っていて、背景画像がbg1.gifに設定されたクラスを持っていれば、それを解析していますか? – webly

+0

@webly:もしそうなら、どうなるでしょうか? cssのプロパティがDOMの要素や属性、または何か異なるものを期待していますか? – Stobor

+0

@webly:いいえ、私はそれがCSSをサポートしているとは思わない。実際のHTMLを解析しますが、CSSに関連するすべてのメタデータはおそらく失われてしまいます。私は、CSSをサポートするためにコードを変更するのがどれほど難しいのかよく分かりませんが、Stoborが述べたように、CSSデータをどのように見たいと思いますか? –

0

私はHtmlAgilityPackの第2のMr. Dormanです。私はしばらく前にbrief blog post on web scrapingでした。それはパックを言及しますが、主に他の詳細について議論します。あなたのアプリケーションに応じて、それはいくつかの使用の可能性があります。

0

ここでは、プロジェクトでHTMLAgilityを使用して、XPathを使用して特定の属性セットを持つ特定のhtmlタグを抽出しました。

0

そうしたスタイルのDOMを取得する方法はありません。実際のブラウザで動作する "Selenium"フレームワークのみです。

関連する問題