2012-04-10 12 views
0

私のプロジェクトでは、私はdomのメソッドを使用するためのWebページからタグを取得したいと思います。タグを取得するための正規表現

しかし、タグはdocument.write(“<a href=”http://somedomain.com”>”);

ここ

私は正規表現を使用しようとしていますので、タグは、文字列の形式で指定されているように動的に作成することができます。

私はすべてのタグと属性が表現はあなたが求めているかを理解することは非常に困難であり、それは非常に不明瞭であるにも

答えて

0

を特定の属性を抽出することができるはず提供一致する正規表現をしたいです。

最初に:オプションがある場合は、正規表現を使用してHTMLを解析しないでください。それは右のように単純に見える?あなたは遅かれ早かれ問題を見つけるでしょう。

第2:what David said

は今ここに(あなたがしなければならない場合ので、それを最初に試してみることや何かをテストしていない)任意のHTMLタグにマッチする正規表現です:

\<[^>]*\> 

は、それがあまりにもスクリプトタグと一致します警告され(せてはいけませんユーザーはあなたのページに任意のタグを書きます。必要な場合は少々ホワイトリストを作成し、図書館を使用しない場合は問題を抱えて準備することができます)。

例えばJavascriptを持っている何の先読み/後読み、時々Javascriptのものと異なる場合があり、例えばRegExrでこれらを試してみてくださいません(しかし、それは、ActionScriptの正規表現を使用していることを思い出させる。