ソースコードからURLを抽出しようとしています。ソースコードは、私がこれまで(?<=<h4\ class="a"><a\ href=")http://.*
ですが、これはまだURLのみを抽出していないに達したものを、次のRegex:テキストで囲まれたURLを抽出する
text text text<h4 class="a"><a href="http://site1.com/url/" onmousedown="return rwt(this,'','','','15',111','','0333','','',home)">...</a></h4>
に似ています。出力はhttp://site1.com/url/
にする必要があります。
ありがとうございます!
htmlの解析にregexの代わりにdomまたはxmlパーサを使用する – baao