私はターゲットドメインがウェブサイトに存在するかどうかを調べる小さなウェブスクレーパーに取り組んでいます。正規表現に一致する正規表現(CTLDループ)
これは私の現在のコード
target = "google.com"
pattern = r"(http|https):\/\/(www.|)"+re.escape(target)
patter = re.compile(pattern, re.IGNORECASE)
パターンが一致するものを見つけるために使用されている外部ページ上に存在なしCTLDドメインが存在しなくなるまで、この正規表現パターンが正常に動作しています。
テスト・ケース#1
<a href="http://www.google.com">Google.com</a>
Match Found
テストケース#2
<a href="http://www.google.com/bla-bla-article">Random.co</a>
Match Found
テストケース#3
これは起こるべきではありません。 .comと.com.auは同じものではないので、一致が見つかりません。定義されたドメインとURLのように起動し、あなたの場合、正規表現マッチeverithingで
<a href="http://www.google.com.au">Google.com.au</a>
Match Found
'(WWW |。)' - > '(:WWW?。)' – ubombi
'(HTTP | HTTPS):\/\ /' - > 'https?:\/\ /' – ubombi
使用しているプログラミング言語は知っておくと良いでしょう。 –