2012-02-29 11 views
1

WebサイトからHTMLテーブルを解析するための助言と可能なコード例が必要です。私はwebclientクラスを使用して、アドレスからhtmlをダウンロードしています。私はその後、私はデータが必要なテーブルを見つける必要があります。たとえば、テーブルIDが<table id="cia_list"の場合、<td>タグをループして、その内部のテキストだけを取得したいとします。これに接近する最善の方法は何でしょうか?C#を使用してHTMLテーブルのテキストを取得する

+7

http://htmlagilitypack.codeplex.com/ – SLaks

答えて

4

私は過去にHTMLをXMLに変換してから、XSLTを使用して結果を解析しました。これがアプローチである場合は、変換を処理するSGMLReaderを見ることをお勧めします。

人々は、あなたが話していることをするために正規表現を使用しようとしばしば試みます。これは私が一般的に反対するものです。ここでこれを実行しない理由の一部の上に行く面白い記事がある:

RegEx match open tags except XHTML self-contained tags

+0

正規表現を使用しないことについて、リンクいただきありがとうございます。私はそのアプローチを実現可能な選択肢と考えていました。 – broke

+0

多くの人がそうです。残念ながら、HTMLは協力しません。 –

+0

SGMLReaderはかなり素晴らしいです。ありがとうございます – broke

関連する問題