私は、Scrawlingの両面で、クロールとスクレーピングの両方の要求に遭遇しました。しかし、アプリケーションの要件に応じて、私はモノリシックなアプローチにならないことに決めました。すべてがサービスベースでなければなりません。そこで私は2つのサービスを設計することにしました。Scrapy:URLからではなくHTMLのアイテムをスクラップします
- すべてのURLとHTMLを取得します。 s3でアップロードします。
なぜHTMLから
最初のサービスはScrapyに基づいています。私は、start URLの代わりにhtmlを提供できるかどうか、またはBeatifulSoapやその他のスクレイピングライブラリを使用しなければならないかどうかを調べるために、同じものを使用できるかどうかを調べていました。
あなたのhtmlソースは、あなたがまだそれらをダウンロードして、非同期的にそれらをクロール:)それを見てみると – Granitosaurus