-2
URLを受け取り、htmlファイルを.htmlファイルにダウンロードするパーサーを作成しようとしています。次に、htmlファイルを介してすべてのリンクを見つけて保存します。私はそれを複数回繰り返したい。誰か助けてもらえますか?それがうまく働いていますが、私はforループでmagic
関数を呼び出すしようとすると、私はRuntimeError: Set changed size during iteration
を取得してもbeautifulsoupを使用してファイルのリンクのhtmlを保存し、htmlファイルのすべてのリンクと同じように行う方法
import requests
import urllib2
from bs4 import BeautifulSoup
link_set = set()
count = 1
give_url = raw_input("Enter url:\t")
def magic(give_url):
page = urllib2.urlopen(give_url)
page_content = page.read()
with open('page_content.html', 'w') as fid:
fid.write(page_content)
response = requests.get(give_url)
html_data = response.text
soup = BeautifulSoup(html_data)
list_items = soup.find_all('a')
for each_item in list_items:
html_link = each_item.get('href')
link_set.add(give_url + str(html_link))
magic(give_url)
for each_item in link_set:
print each_item
print "\n"
:
これは私が書いたコードです。
現在のコードはどこですか? –
はい、ここでコードを更新しました。私はコードを貼り付けなければならないことも知らなかった。 –