0
私は、ウェブサイトがGoogleで最初に決定されたキーワードを検索しているかどうかを調べる簡単なスクリプトを書いています。python - URLを解析する
def parse_url(url):
url = urlparse(url)
hostname = url.netloc
return hostname
とによって選択されたタグのリストから始まる:
:私はこれを書いたlinkElems = soup.select('.r a') #in google first page the resulting urls have class r
今は、これはURLを解析し、ホスト名を返す関数であります
for link in linkElems:
l = link.get("href")[7:]
url = parse_url(l)
if "www.example.com" == url:
#do stuff (ex store in a list, etc)
この2番目の行では、7番目のインデックスから開始する必要があります。すべてのhrefの値秒は'/url?q='
で始まります。
私のpythonを学んでいますので、これを行うには良い方法がある場合、私は疑問に思って、または単に代替1を(おそらく正規表現またはメソッドを交換するか、urlparseライブラリーから)