2009-04-28 4 views
0

正規表現を使用して、次のように書式設定されるhtmlのグループを抽出するにはどうすればよいですか:regexを使用してhtmlファイルから質問/回答データのグループを抽出するにはどうすればよいですか?

. 
    .irrelevant html... 
    <b>Question 6</b><br> 

lots of text 
<p> 

lots of text 
<p> 
<br> 

<b>Answer 6</b><br> 
lots of text 
<p> 

lots of text 
<p> 

lots of text 
<p> 

more text 
<p> 
<HR> 

<IMG SRC="/images/image.jpg" alt="alt text" width=480 height=360 hspace=2 vspace=2> 
<p> 

<i>caption text</i> 

さまざまな量の質問と回答があります。そして、画像コードはどこにでも(質問と回答の間、または回答の後)でもかまいません...

私が抽出したい唯一の情報は質問#、段落のHTMLコード、Img srcとaltですとキャプション。

+0

これを行う特定の言語/環境はありますか? また、特定のファイルに対して、または定期的に行われることに対して、それは一回限りの仕事ですか、そして、入力がどれくらい一貫しているのでしょうか? –

+0

こんにちはピーター、これは1つのタスクであり、完了です:) 350〜400ページがすべて非常に似たフォーマットであり、パーサはその95%で動作します。私はまた、何百もの類似したページの他のグループのための別の同様のパーサを開発しました。任務完了。 –

+0

こんにちはGordon、この質問の今後の読者の便宜のために、あなたが回答として使用したパーサーを投稿できますか? –

答えて

1

Watirのようなものを試してみるとよいでしょう。そうすれば、プログラムでdomを検索し、必要なものを見つけることができます。

関連する問題