Pythonでイメージなしでhtmlファイルをスクラップして保存する

ウェブサイトをスクラップして、各ページをフェッチした後、そのページをhtmlファイルに保存します。 htmlファイルにコンテンツを保存すると、画像も保存され、すべてのストレージを使い果たしてしまいます。とにかくイメージなしでファイルを保存できるのですか？ここでPythonでイメージなしでhtmlファイルをスクラップして保存する

はコードです：

for url in xrange(all_urls): 
    driver.get(url) 
    page = driver.page_source 
    f = open(url.replace('/','_') +'.html' , 'w') 
    f.write(page.encode('utf-8')) 
    f.close() 
    time.sleep(uniform(2, 5))

出典

2017-04-05 Erin

ウェブサイト全体をミラーリングしようとしていますか？いくつかのコードを投稿できますか？ –

サイト全体をミラーリングしているわけではありませんが、ストレージは非常に限られています。現在、各ファイルは約600Kです。 – Erin

'url'の拡張子を確認してください。ホワイトリスト（html、php、aspなど）を使用して、コンテンツを保存するかどうかを確認します。 –

あなたはカールを使用してHTML形式でファイルを保存することができます。

出典

2017-04-05 17:18:27 AbdurrahmanD

私はカールを使用しているとき、ウェブサイトは私が掻いていることを検出します。だから私はwebdriverを使用してファイルを保存する必要があります。 – Erin

Pythonでイメージなしでhtmlファイルをスクラップして保存する

答えて

関連する問題