2017-05-18 4 views
0

こんにちは、私はまだ気流に新しいです。気流がスパークにどのようにつながるか知りたいですか? Sparkクラスタにアクセスするために、異なるアカウント(またはプロファイル)を持つサーバーがあります。私はAirflowがSparkを接続する固定プロファイルを持っているのだろうか?またはそれはユーザープロファイルに従いますか?気流がSparkにどのように接続され、気流のユーザーに別のアクセス権を設定することはできますか?

また、Airflowのユーザーに別のアクセス権を設定することはできますか? たとえば、Spark(またはhdfs)のロケーションAにアクセスできるユーザAは、ロケーションAに関連するタスクしか実行できません(したがって、Bのロケーションからジョブを実行することはできません)

ありがとう前進。

答えて

0

寄付されたコミュニティSparkSubmitOperatorをAirflowレポのconrtibフォルダで見ることができます。基本的に、この演算子はpythonを介してspark-submitサブプロセスを実行し、その完了を待ちます。このオペレータは、以前の安定リリース(1.8.1)以来大幅に改善されています。既にスパークの設定があり、スパークジョブの実行場所をエアフローで制御したくない場合は、これは非常にうまく動作します。

ユーザー権利の問題はより複雑です。その1つは、SparkSubmitOperatorを変更してサブプロセスの環境パラメータを設定し、このパラメータをこのオペレータへの(余分な)入力として使用することです。

関連する問題