HTMLファイル内のテーブルを削除しようとしています。具体的には、次のドキュメントでは、タグ<TABLE....> and </TABLE>
内のものを削除したいと考えています。文書には複数の表があり、その間にテキストがあります。正規表現でHTMLテーブルを解析する
しかし、私が思い描いた式<TABLE.*>\s*[\s|\S]*</TABLE>\s*
は、テーブル間のテキストを削除します。実際には、最初の<TABLE>
と最後の</TABLE>
タグの間のすべてが削除されます。その間にテキストを残しておき、テーブルだけを削除したいと思います。どんな提案も大歓迎です。ありがとう。
====================
<TABLE STYLE=xxx, Font=yyy, etc>
table texts that should be DELETED...
</TABLE>
other texts that should be KEPT...
<TABLE STYLE=xxx, Font=yyy, etc>
table texts that should be DELETED...
</TABLE>
==========================================
**ちょうど。 Do not。** [RegExは、XHTML自己完結型のタグを除いて、オープンタグとマッチする可能性があります](http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-タグ) –
正規表現は_ "regular" _ languagesと一致します。 HTMLは規則的ではありません。正規表現を使って解析しないでください。 – Phrogz