私はドメインで始まり、サイトからすべてのリンクを抽出し、次に引き続きそれらのリンクからリンクを抽出する必要があります。しかし、私は与えられたドメインの一部であるリンクをたどることになっています。私はBeautifulSoupを使用しています。私がこれを行うと考えることができる唯一の方法は、hrefが 'href =' www.someotherdomain.com 'の形式かhref =' page1/page2 'の形式かをテストすることです。前者は、リンクが新しいドメインを指し示し、後者は、リンクが同じドメイン内のページを指し示すことを示すであろう。Pythonを使用して特定のドメインのみをクロールする方法はありますか?
私はすでにリンクに独自のドメインがあるかどうかを確認するためにhas_domainという関数を作成しました。コードは次のようになります:
def has_domain(url):
if 'www.' in url:
return True
else:
return False
シードドメイン外のすべてのリンクが「www」で始まるわけではありません。リンクが新しいドメインを指しているかどうかを確認する簡単な方法はありますか?
ようこそ。これまでにどのようなタラを試しましたか?あなたが試したことを示すことは、私たちがあなたを助け、あなたがそれに何らかの努力をしたことを示すのにも役立ちます。 –
リチャード・リチャードに感謝します。私の編集内容が私が試したことを示してくれることを願っています。 – mdb1991