抽出コンテンツ

私は、次の正規表現を使用していますが、そのは、最初の行のみ抽出コンテンツ

Regex r = new Regex("&lt;div([^<]*<(?!/div>))");

 
    <div class="testimonial_content" id="divtestimonial1"> 
      <a name="T1"></a> 
      <div class="testimonial_headline">%testimonial1headline</div> 
      <p align="left"><img src="" alt="" width="193" height="204" align="left" hspace="10" id="img_T1"/><span class="testimonial_text">%testimonial1text</span><br /> 
      </p> 
    </div>

出典

2011-01-23 Sandhurst

Regular expressions are generally not a good choice for parsing HTMLを返すdivtestimonial1 divの内このコンテンツを抽出する必要があります。 HTML Agility Packのようなツールを使う方が良いかもしれないので、それを使うことをお勧めします。言われて、あなたはこの正規表現を使用して、特定のサンプル入力を一致させることができること

：

<div.*?id="divtestimonial1".*?>.*</div>

しかし、それはあなたの実際のシナリオで壊すかもしれません。 RegexとHTMLの問題の1つは、タグの入れ子などを適切に検出しています。

出典

2011-01-23 17:36:43 driis

あなたは私にそれを打つ！ –

それは一般的に真実ですが、OPがここで求めていることは、RegExではかなり実用的で可能です。 –

答えて

関連する問題