2016-06-25 10 views
0

1つのRDDで複数の独立した集約ジョブを並列に実行する方法はありますか?最初の設定はPythonで、次にScalaとJavaです。sparkで複数の集約ジョブを1つのデータフレームで並列に実行できますか?

好みの順番でアクションのコースがある - スレッドプールを使用して

  1. - 異なるスレッド上に異なる集計を行って異なる機能を実行します。私はこれを行う例は見ませんでした。

  2. 糸にクラスタモードを使用し、異なるジャーを提出する。可能であれば、それはpysparkで可能でしょうか?

  3. kafkaを使用してデータフレームにさまざまなスパーク送信を実行する。

私はSparkにはかなり新しく、EarnのSpark on Yarnを連続して実行することで、複数の集計を連続して実行することができます。彼らがほとんど独立しているので、これらの集約を並行して実行することができれば、私は考えていました。

答えて

0

は、あなたの幅広い質問を考えてみましょう、ここでは広義の答えです:

はい、並行して、単一のデータフレーム上で複数の集計ジョブを実行することが可能です。

残りについては、あなたが求めていることは明確ではないようです。

+1

ありがとうございます!それをどうやって行うのか教えてください。私は同じものを検索しようとしましたが、かなり曖昧な答えに遭遇しました。私が何を求めているのか明確でないことを申し訳なく思う。 –

+0

すみません。私はもっ​​と詳しく説明することはできません。それはかなり広いです。 Sparkは並列データ処理エンジンです。私はそのような幅広い質問に対して具体的な答えを出すことはできません。 StackOverflowで質問する方法をお読みください。質問を確認するのに役立ちます。 – eliasah

+0

@preitamojha http://stackoverflow.com/q/38048068/1560062 – zero323

関連する問題