ご挨拶!クラス名で要素を抽出する正規表現
私はいくつかのHTMLが有効かどうかを確認しています。 HTMLが無効な場合は、最善の試みが行われ、発生したエラーは許容されます(つまり、一部のタグが正しく閉じられていないためにグループ分けが多すぎる)。
このHTMLにはさまざまな要素がありますが、その中にはクラスがあるものがあります(「findme」と呼ばれます)。これらの要素はさまざまな種類のものです。など、いくつかのIMG、いくつかオブジェクト、いくつか、
私はすべての要素を引き出します正規表現、そして、彼らはコンテンツが含まれている場合は、それらに含まれるコンテンツを必要としています。例えば
:持っているそこのあなたの任意の正規表現達人
<img class="findme" src="something" />
と
<object class="findme" classid="clsid:F08DF954-8592-11D1-B16A-00C0F0283628" id="Slider1" width="100" height="50">
<param name="BorderStyle" value="1" />
<param name="MousePointer" value="0" />
<param name="Enabled" value="1" />
<param name="Min" value="0" />
<param name="Max" value="10" />
</object>
:
<div>
<span><img class="findme" src="something" /></span>
<object class="findme" classid="clsid:F08DF954-8592-11D1-B16A-00C0F0283628" id="Slider1" width="100" height="50">
<param name="BorderStyle" value="1" />
<param name="MousePointer" value="0" />
<param name="Enabled" value="1" />
<param name="Min" value="0" />
<param name="Max" value="10" />
</object>
</div>
HTMLの塊に正規表現を実行すると、2つの要素を返す必要がありますこのアイデアは?
編集: 言語はC#です。
このジョブで使用しているプログラミング言語を教えてください。 –