2016-05-25 18 views
-1

次のhtmlからquerystringでurlを抽出しようとしていますが、正規表現を使用していますが、動作しません。私を助けてくれますか? https://www.joinville.sc.gov.br/jornal/visualizaranexos?cod_jornal=755&cod_sei_publicacao=529htmlからクエリ文字列を含むURLを抽出する

1.1私の正規表現:この正規表現の

(?<=href=").*?\?.*?(?=") 

1.2出力

https://www.joinville.sc.gov.br/public/portaladm/pdf/jornal/ed1301f83021029837bd0628e8e98d39.pdf\" target=\"_blank\"> <span class=\"thumb-jornal\"> <img src=\"/public/portal/imagens/ico_diario.png\" class=\"jornal-icon\" width=\"46\" height=\"38\" alt=\"\"> <span class=\"jornal-shadow\"></span> </span> </a> <span class=\"article-date bolder\"> <span class=\"article-subject\">ano 2016</span> <img src=\"/public/portal/imagens/arrow-bullet.gif\" width=\"8\" height=\"11\" class=\"arrow-bullet\" alt=\">\">n° 398 - <a rel=\"shadowbox;width=500;height=400\" href=\"https://www.joinville.sc.gov.br/jornal/visualizaranexos?cod_jornal=755&cod_sei_publicacao=529" 

2. HTML:

私は一致しようとしています何

<li> <a href="https://www.joinville.sc.gov.br/public/portaladm/pdf/jornal/ed1301f83021029837bd0628e8e98d39.pdf" target="_blank"> <span class="thumb-jornal"> <img src="/public/portal/imagens/ico_diario.png" class="jornal-icon" width="46" height="38" alt=""> <span class="jornal-shadow"></span> </span> </a> <span class="article-date bolder"> <span class="article-subject">ano 2016</span> <img src="/public/portal/imagens/arrow-bullet.gif" width="8" height="11" class="arrow-bullet" alt=">">n° 398 - <a rel="shadowbox;width=500;height=400" href="https://www.joinville.sc.gov.br/jornal/visualizaranexos?cod_jornal=755&cod_sei_publicacao=529" style="font-size: 8px; display: inline; color: #ff0000;">anexos</a> </span> <span class="article-date">19/02/2016</span> </li> 

編集:次の正規表現は動作しているようです - >(? ?< =のhref = ")[^"] + \ [^ "]?+(=")

+0

なぜ-1? please、expain –

+0

なぜこの正規表現(上記の1.2)の出力が間違っていますか?人々が手助けをするために正規表現が出力するものを正確に説明する必要があります。 –

+0

一致させようとしているURLのタイプを指定してください。 –

答えて

1

もし私が正しいとすれば、あなたはパラメータを持つURLだけに興味がありますか?それから私はこれがトリックだと思う。

(?<=href=")([\S\?]*\?.*?)(?=") 
0

これを試してみてください:

href="([^"]+)" 

最初のキャプチャグループは、あなたが探しているURLです。 Regex 101

関連する問題