VB.NETスクレイパーに少し問題があります。すでにダウンロードしたhtml文字列のリンクをすべて取得するはずです。私はチェックしたので)、それは私の正規表現の文字列で何かでなければなりません。リンク要素を傷つけるRegexの文字列の問題
私の正規表現文字列:<a.*?href=""(.*?)"".*?>(.*?)</a>
これは、いくつかのサイトのために動作しますが、他の人のために、それはしません。
ここには、一致するか一致しないHTMLソースの例があります。
ワーキング:
<a href="http://domain.com" rel="nofollow" onmousedown="return clk('25936','3')" target="_blank">/a>
が機能していない:
<a href='http://domain.com' target="_blank" ><font size=2><b>text</b></a>
それが原因"
と'
のだろうか?以下の正規表現と
どのように正規表現を使用していますか?なぜ2つの二重引用符がありますか? – Tushar
まあ、お互いの隣に二重引用符があると " – Anders
あなたの正規表現が最初の例とどのようにマッチしているのかわかりません(あなたが使っているツール/言語は何ですか?)[こちら](https://regex101.com/r/xO1iQ0)あなたの正規表現を使って遊んでください。 – Kamehameha