regexを使用してhtmlファイルから質問/回答データのグループを抽出するにはどうすればよいですか？

正規表現を使用して、次のように書式設定されるhtmlのグループを抽出するにはどうすればよいですか：regexを使用してhtmlファイルから質問/回答データのグループを抽出するにはどうすればよいですか？

. 
    .irrelevant html... 
    <b>Question 6</b><br> 

lots of text 
<p> 

lots of text 
<p> 
<br> 

<b>Answer 6</b><br> 
lots of text 
<p> 

lots of text 
<p> 

lots of text 
<p> 

more text 
<p> 
<HR> 

<IMG SRC="/images/image.jpg" alt="alt text" width=480 height=360 hspace=2 vspace=2> 
<p> 

<i>caption text</i>

さまざまな量の質問と回答があります。そして、画像コードはどこにでも（質問と回答の間、または回答の後）でもかまいません...

私が抽出したい唯一の情報は質問＃、段落のHTMLコード、Img srcとaltですとキャプション。

出典

2009-04-28 Alex Baranosky

これを行う特定の言語/環境はありますか？また、特定のファイルに対して、または定期的に行われることに対して、それは一回限りの仕事ですか、そして、入力がどれくらい一貫しているのでしょうか？ –

こんにちはピーター、これは1つのタスクであり、完了です:) 350〜400ページがすべて非常に似たフォーマットであり、パーサはその95％で動作します。私はまた、何百もの類似したページの他のグループのための別の同様のパーサを開発しました。任務完了。 –

こんにちはGordon、この質問の今後の読者の便宜のために、あなたが回答として使用したパーサーを投稿できますか？ –