2011-01-21 1 views
1

を解析し、誰かがタグをすべてpossiblitiesとHTML用のJava正規表現 "<meta http-equiv =" Content-Type "content =" text/html;文字セット= ISO-8859-1「>」私は正規表現に新しいです

<meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1"> 

を解析するための正規表現を得ることに私を助けることができますか?

+0

タグ<メタHTTP-当量= "Content-Typeの" コンテンツ= "text/htmlの;のcharset = ISO-8859-1"> – vaibhav

+4

**すべての**の可能性?正規表現でこれを行おうとしないでください。あなたはテンプレートに合ったHTMLを得ることができますが、一般的な解析には実際のHTMLパーサが必要です。 – Quentin

+3

http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 – Reid

答えて

2

「すべての可能性」をカバーするには、実際にHTML 5のDetermining the character encodingルールを使用する必要があります。これらは正規表現では表現できません。

オープンソースJava implementation of it in validator.nu


あなたは正規表現を使用して主張する場合、これはおそらくエンコードが、それは例えば、meta要素(それはないだろうと宣言したほとんどのケースをカバーしますがあります、XML宣言をカバーする)。しかし、汚いですが、通常は(しかし必ずしもそうでないかもしれませんが)いくつかの仮定を行い、私はそれをお勧めしません。

/<meta[^>]+charset=['"]?(.*?)['"]?[\/\s>]/i 
+0

validator.nuの後継者はありますか? –