Apache AirFlowはどのようにスケーラビリティを実現しますか？

Airflowの多くのオペレータは、ターゲットシステムにアップロードする前にデータをローカルに保存しています。これは、データが巨大な場合に、ワーカーノードが相当量の作業をしていることを意味します。Apache AirFlowはどのようにスケーラビリティを実現しますか？

Airbnb（オープンソースのAirflow社）は、2015年には、気流クラスタ内に6ノードしかなく、5,000のジョブを処理していたと言います。

ここに何か不足していますか？

ご理解ください。

2017-04-16 Pawandeep

Apache Airflowの主な目的は、タスクのスケジュールと監視です。それは一般的なデータ処理エンジンとして設計されていません。 Apache SparkやApache HiveよりもOozieの代わりに考えてください。

気流は、（Mesos、RabbitMQ/Celeryを使用して）作業者の規模を拡大することができますが、重い持ち上げは依然として分析システムによって実行されます。たとえば、AirflowはSparkのジョブやDruidのクエリを管理したり、変更を処理したりすることができます。

2017-04-16 10:06:51 user7874148

答えて