私はユーザーの入力から最大の番号からウェブサイトの名前を取ってみたい。属性とはアンカーがない場合、彼は、ウェブサイトのクロールにクロールしたい...しかし、どのsolution..hereの私のコード私はPythonのURLのユーザーから入力したいと思う
import requests
from bs4 import *
from urllib import request
url1 = input("Enter url you want to crawl:")
max_pages1 = int(input("Enter no. of pages you want to crawl:"))
def web_crawler(max_pages,url):
page = 1
while page <= max_pages:
url4 = str(url) + str(page)
url_get = requests.get(url4)
plain_text = url_get.text
soup = BeautifulSoup(plain_text,"html.parser")
for a in soup.findAll('a',{'rel':'bookmark'}):
href = a.get('href')
title = a.string
#print(title)
print(href)
#info_about_web_pages(href)
page +=1
def info_about_web_pages(url):
url_get = requests.get(url)
plain_text = url_get.text
soup = BeautifulSoup(plain_text,"html.parser")
links = set()
for about in soup.findAll('a'):
href = about.get('href')
links.update([href])
print(links)
web_crawler(max_pages1,url1)
を取得することはできませんページのそれは私に出力
これを実行しようとしているURLの例がありますか? 'rel': 'bookmark'という属性のアンカーがソースコードにあることを確認してください。 –
はいURLはrel:bookmark .... .. urlはhttp://www.fonearena.com/blog/ – Trunks