0
ウェブサイトをスクラップして、各ページをフェッチした後、そのページをhtmlファイルに保存します。 htmlファイルにコンテンツを保存すると、画像も保存され、すべてのストレージを使い果たしてしまいます。とにかくイメージなしでファイルを保存できるのですか?ここでPythonでイメージなしでhtmlファイルをスクラップして保存する
はコードです:
for url in xrange(all_urls):
driver.get(url)
page = driver.page_source
f = open(url.replace('/','_') +'.html' , 'w')
f.write(page.encode('utf-8'))
f.close()
time.sleep(uniform(2, 5))
ウェブサイト全体をミラーリングしようとしていますか?いくつかのコードを投稿できますか? –
サイト全体をミラーリングしているわけではありませんが、ストレージは非常に限られています。現在、各ファイルは約600Kです。 – Erin
'url'の拡張子を確認してください。ホワイトリスト(html、php、aspなど)を使用して、コンテンツを保存するかどうかを確認します。 –