2009-05-08 26 views
6

誰かがVB.NETやC#用のHTMLパーサを知っていますか?私は.NETがXMLReaderやXMLWriterのような多くのXMLサポートを持っていることを知っています。 HTMLWriterまたはHTMLReaderはありますか?HTMLパーサー

最終的に私が望むのは、HTMLファイルを解析し、見つかったタグに基づいてイベントを発生させるライブラリです。これを行うには誰でもライブラリを知っていますか?

+0

私はBCL doesntのは、(これらのUIアセンブリの一部に触れることなく)適切な中立名前空間/アセンブリ内の適切なHTMLパーサを持っていると信じていカント。 JSONとXMLにはたくさんのクラスがあります。 – nawfal

答えて

5

HTML Agility Packは、HTMLを解析する場合(タグスープでうまくいっていても)に行く方法です。理論的には、BCLに含まれているXMLパーサは有効なXHTMLを解析できるはずですが、HTMLアジリティパックは、通常のHTML、XHTML、および混乱した変形を処理できる一般的なソリューションです。

タグを見つける際のイベントを発生させることは、もちろん自分で実装する必要があるものですが、HtmlReaderクラスを使用するとかなり簡単です。

+0

私はそれを生産コードで使用し、非常に満足しています。 – mkelley33

+0

私もそれをプロダクションで使っています - うまくいきます! – Dror

1

私はこのHtmlParserをかなり前に書いており、私はGitHubのオープンソースプロジェクトとしてリリースしました。これは、DOMを構築しないため、一般的なHTML解析ツールよりも高速です。それはあなたが求めたことを正確に行い、各タグの "イベント"を発生させます。

https://github.com/calbucci/CalbucciLib.HtmlParser

私はちょうどNuGetにこれを追加しました:

https://www.nuget.org/packages/CalbucciLib.HtmlParser/

+0

これはHTML5タグも解析しますか?

など? – Icemanind

+0

はい、そうです。それは未知のタグさえサポートします。 –

関連する問題