私は正規表現を作成しています。これは私のテストデータセットです:正規表現の結果を絞り込む
<a href="test.html">test1</a>
<a href="test.pdf">test2</a>
<a href="test.html">test1</a>
<a href="test.html">test1</a><a href="testtime.pdf">test2</a>
私は「PDF」が、次の正規表現を「のhref =」からキャプチャしようとしている:それは孤立している場合
href=.*?\.pdf
は、右のデータをキャプチャします1行に、それはまた、最後の行から次のようにマッチします:私は、最後の「HREF」から「PDFファイル」にしたい
href="test.html">test1</a><a href="testtime.pdf
、私は上の最初の 『HREF』をしたくありませんそれと2番目の「hre f "である。これに合うように正規表現を修正することは可能ですか?
ありがとうございました。
あなたはそれがPDFだ場合にのみ、最後にリンクされたファイルの名前をしたいですか? – Slime
正規表現用javascript? – aahhaa
regexesを使ってHTMLを解析することは危険に満ちていることに注意してください。その理由の例はhttp://htmlparsing.com/regexes.htmlをご覧ください。 –