2012-01-10 8 views
-1

各列の列ヘッダーと行を2次元配列にスクラップしたいと思います。LINQを使用して長方形配列にHTMLテーブルをスクラップ

  • ファイターミグ29
  • ファイターF-15
  • <div id="content"> 
    <!-- start left col--><div id="LeftCol-wss"> 
    <h1>Aircraft Names</h1> 
    
    
    <h3>Names by Type</h3> 
        <table cellspacing="1" cellpadding="2" class="data"> 
        <tr valign="top" bgcolor="#FFFFFF"> 
         <td valign="top" width="25%"> 
         <table width="100%" cellpadding="3" cellspacing="0" border="0" class="data">    
          <tr class="datatop"> 
          <td width="100%"> 
           Fighter</td> 
          </tr> 
          <tr> 
           <td align="top" class="datatop" width="100%"> 
           <br/>    
           <a href="/page/mig-29.html" >MiG-29</a> 
          <br/> 
           <a href="/page/f-15.html" >F-15</a> 
          <br/> 
           <a href="/page/f-86.html" >F-86</a> 
          <br/> 
           <br> 
           </td> 
          </tr> 
         </table> 
         </td> 
         <td valign="top" width="25%"> 
         <table width="100%" cellpadding="3" cellspacing="0" border="0" class="data">    
          <tr class="datahead"> 
          <td width="100%"> 
           Bomber</td> 
          </tr> 
          <tr> 
           <td align="top" class="datatop" width="100%"> 
           <br/> 
           <a href="/page/b-52.html" >B-52</a> 
          <br/> 
           <a href="/page/b-1b.html" >B-1B</a> 
          <br/> 
           <br> 
           </td> 
          </tr> 
         </table> 
         </td> 
    </div> 
    

    私が探していた結果がどのように見える2次元配列になります:データは以下のようになります。

  • ファイターF-86
  • 爆撃機B-52
  • ボンバーB-1B

私はC#を使用しており、LINQを使用する方が好きですが、この時点で私は何か提案をします。

+4

LINQでHTMLを解析できると思われる理由は何ですか?彼らは無関係の技術です。 LINQ to XMLがありますが、これはX(HT)MLではありません(たとえば、閉じられていない '
'タグがあります)。 –

+1

これをコード化しようとしましたか?少なくとも試してみてください。 –

答えて

2

C#でHTMLを解析する場合、標準的な答えはHTML Agility Packを使用することです。

関連する問題