私は複数のウェブサイトからデータをスクラップするいくつかのスクリプトを持っています。次のステップはデータを処理することです。データを受け取り、データを処理するワーカーをセットアップしたいと思います。 1人の作業者が常に稼働し、スクレーパが処理するデータを供給するのを待っている良いパイプライン/ワークフローのアプローチは何ですか?複数のプロセスでアクセス可能な優れたパイプライン?
私はリクエストを処理するAPIサーバーのように思っていましたが、より良い解決策がありますか?それらはすべて同じマシン上で実行されている場合は
、スクレーパと労働者を使用すると、標準ライブラリにmultiprocessing.Queueを使用することができ、同じプロセスによって開始されています
PUSH/PULLは私が感謝を探しています正確に何です。スクレーパーは結果を待つ必要がないので、作業者は結果をストリームにプッシュしてさらに処理してデータベースに格納します。ありがとう。 –