私は正規表現に新しいブランドだし、私は次の二つの問題を解決しようとしています:すべてのリンクを抽出する正規表現と対応するリンクは、テキスト
がすべて抽出する正規表現を書きますリンク、および対応するリンクテキストをHTMLページから取得します。たとえば、あなたが望んでいた場合は解析する:
text1 <a href="http://example.com">hello, world</a> text2
をして結果を得る
http://example.com <tab> hello, world
同じことを行いますが、また、取り扱いの場合ここで、
-
は、 <は...>ネストされています:
text1 <a href="http://example.com" onclick="javascript:alert('<b>text2</b>')">hello, world</a> text3
これまでのところ私はまだ最初の質問に就いています。私は最初の私の最高の答えは、私を与える(?<=a href=\")(.*)(?=</a>)
http://example.com">hello, world
これは私には十分だと思われるが、私はどのように私は2番目の部分に近づくと思いますかわからない。助けや洞察力があれば大いに感謝します。あなたはHTMLパーサBeautifulSoup
などでそれを解決した場合
正規表現が悪いです。あなたは本当のhtmlパーサを考慮する必要があります。 –
http://stackoverflow.com/a/1732454/6779307 –
質問にはどうすればいいですか?ちょうどhtmlの解析のための正規表現はありません? –