2017-04-16 20 views
2

Airflowの多くのオペレータは、ターゲットシステムにアップロードする前にデータをローカルに保存しています。これは、データが巨大な場合に、ワーカーノードが相当量の作業をしていることを意味します。Apache AirFlowはどのようにスケーラビリティを実現しますか?

Airbnb(オープンソースのAirflow社)は、2015年には、気流クラスタ内に6ノードしかなく、5,000のジョブを処理していたと言います。

ここに何か不足していますか?

ご理解ください。

答えて

2

Apache Airflowの主な目的は、タスクのスケジュールと監視です。それは一般的なデータ処理エンジンとして設計されていません。 Apache SparkやApache HiveよりもOozieの代わりに考えてください。

気流は、(Mesos、RabbitMQ/Celeryを使用して)作業者の規模を拡大することができますが、重い持ち上げは依然として分析システムによって実行されます。たとえば、AirflowはSparkのジョブやDruidのクエリを管理したり、変更を処理したりすることができます。

関連する問題