正規表現を使用して、次のように書式設定されるhtmlのグループを抽出するにはどうすればよいですか:regexを使用してhtmlファイルから質問/回答データのグループを抽出するにはどうすればよいですか?
.
.irrelevant html...
<b>Question 6</b><br>
lots of text
<p>
lots of text
<p>
<br>
<b>Answer 6</b><br>
lots of text
<p>
lots of text
<p>
lots of text
<p>
more text
<p>
<HR>
<IMG SRC="/images/image.jpg" alt="alt text" width=480 height=360 hspace=2 vspace=2>
<p>
<i>caption text</i>
さまざまな量の質問と回答があります。そして、画像コードはどこにでも(質問と回答の間、または回答の後)でもかまいません...
私が抽出したい唯一の情報は質問#、段落のHTMLコード、Img srcとaltですとキャプション。
これを行う特定の言語/環境はありますか? また、特定のファイルに対して、または定期的に行われることに対して、それは一回限りの仕事ですか、そして、入力がどれくらい一貫しているのでしょうか? –
こんにちはピーター、これは1つのタスクであり、完了です:) 350〜400ページがすべて非常に似たフォーマットであり、パーサはその95%で動作します。私はまた、何百もの類似したページの他のグループのための別の同様のパーサを開発しました。任務完了。 –
こんにちはGordon、この質問の今後の読者の便宜のために、あなたが回答として使用したパーサーを投稿できますか? –