次のhtmlからquerystringでurlを抽出しようとしていますが、正規表現を使用していますが、動作しません。私を助けてくれますか? https://www.joinville.sc.gov.br/jornal/visualizaranexos?cod_jornal=755&cod_sei_publicacao=529htmlからクエリ文字列を含むURLを抽出する
1.1私の正規表現:この正規表現の
(?<=href=").*?\?.*?(?=")
1.2出力
https://www.joinville.sc.gov.br/public/portaladm/pdf/jornal/ed1301f83021029837bd0628e8e98d39.pdf\" target=\"_blank\"> <span class=\"thumb-jornal\"> <img src=\"/public/portal/imagens/ico_diario.png\" class=\"jornal-icon\" width=\"46\" height=\"38\" alt=\"\"> <span class=\"jornal-shadow\"></span> </span> </a> <span class=\"article-date bolder\"> <span class=\"article-subject\">ano 2016</span> <img src=\"/public/portal/imagens/arrow-bullet.gif\" width=\"8\" height=\"11\" class=\"arrow-bullet\" alt=\">\">n° 398 - <a rel=\"shadowbox;width=500;height=400\" href=\"https://www.joinville.sc.gov.br/jornal/visualizaranexos?cod_jornal=755&cod_sei_publicacao=529"
2. HTML:
私は一致しようとしています何
<li> <a href="https://www.joinville.sc.gov.br/public/portaladm/pdf/jornal/ed1301f83021029837bd0628e8e98d39.pdf" target="_blank"> <span class="thumb-jornal"> <img src="/public/portal/imagens/ico_diario.png" class="jornal-icon" width="46" height="38" alt=""> <span class="jornal-shadow"></span> </span> </a> <span class="article-date bolder"> <span class="article-subject">ano 2016</span> <img src="/public/portal/imagens/arrow-bullet.gif" width="8" height="11" class="arrow-bullet" alt=">">n° 398 - <a rel="shadowbox;width=500;height=400" href="https://www.joinville.sc.gov.br/jornal/visualizaranexos?cod_jornal=755&cod_sei_publicacao=529" style="font-size: 8px; display: inline; color: #ff0000;">anexos</a> </span> <span class="article-date">19/02/2016</span> </li>
編集:次の正規表現は動作しているようです - >(? ?< =のhref = ")[^"] + \ [^ "]?+(=")
なぜ-1? please、expain –
なぜこの正規表現(上記の1.2)の出力が間違っていますか?人々が手助けをするために正規表現が出力するものを正確に説明する必要があります。 –
一致させようとしているURLのタイプを指定してください。 –