画像URLの唯一のウェブサイト全体を傷つける

クライアントはウェブサイト上の画像のリストを収集してくれました。データベースは非常に混乱しており、画像はすべての場所に保存されています（S3の一部、ローカルサーバーのもの）。私は、S3から新しいホスティング会社に移行する予定の画像のリストを作成する必要があります。画像URLの唯一のウェブサイト全体を傷つける

REGEXPを使用してデータベースのダンプをクロールしようとしましたが、私が出てくるイメージリストはサイトが実際に使用しているものと一致しません。

私が探しているもの：すべての画像URLのウェブサイト全体をクロールするPythonスクリプトを公開します。ウェブサイトはWordPressで、たくさんの.jpgがありますか？8127などが続いています。私はそれらについて気にしない、私は出力を後で整理することができます。

だから、私の目的は以下のとおりです。ウェブサイト上のすべてのリンクを次の

-Write Pythonスクリプトは、イメージリンクの出力を解析します。 - 結果をクリーンアップとレビューのためのテキストファイルにダンプします。

私はhttps://pypi.python.org/pypi/ImageScraperを使用して、最も理にかなっていると考えています。

これについてはどうすればよいですか？

出典

2017-03-28 Rick

[Scrapy]（https://scrapy.org/）も考慮するオプションです。 – adabsurdum

scrapyプロジェクトをチェックする必要があると思います。あなたは、クローラを作成し、パイプラインを使用して治療をするとimagesのURLを保存することができます。

出典

2017-03-28 14:11:32

今日私は学んだ。非常にクール - ありがとう。 –

画像URLの唯一のウェブサイト全体を傷つける

答えて

関連する問題