2017-04-05 14 views
0

ウェブサイトをスクラップして、各ページをフェッチした後、そのページをhtmlファイルに保存します。 htmlファイルにコンテンツを保存すると、画像も保存され、すべてのストレージを使い果たしてしまいます。とにかくイメージなしでファイルを保存できるのですか?ここでPythonでイメージなしでhtmlファイルをスクラップして保存する

はコードです:

for url in xrange(all_urls): 
    driver.get(url) 
    page = driver.page_source 
    f = open(url.replace('/','_') +'.html' , 'w') 
    f.write(page.encode('utf-8')) 
    f.close() 
    time.sleep(uniform(2, 5)) 
+0

ウェブサイト全体をミラーリングしようとしていますか?いくつかのコードを投稿できますか? –

+0

サイト全体をミラーリングしているわけではありませんが、ストレージは非常に限られています。現在、各ファイルは約600Kです。 – Erin

+0

'url'の拡張子を確認してください。ホワイトリスト(html、php、aspなど)を使用して、コンテンツを保存するかどうかを確認します。 –

答えて

0

あなたはカールを使用してHTML形式でファイルを保存することができます。

+0

私はカールを使用しているとき、ウェブサイトは私が掻いていることを検出します。だから私はwebdriverを使用してファイルを保存する必要があります。 – Erin

関連する問題