mapPartitionなどを使用して各パーティションの設定作業を行うことができますが、各エグゼキュータで処理するパーティションが多数あり、各パーティションが正確なセットアップ作業を行います。同じエグゼキュータ内のパーティションがセットアップ作業を繰り返す必要がないように、パーティションではなくエグゼキュータのセットアップ作業を行うことができるのだろうかと思います。Spark:パーティションではなくエグゼキュータのセットアップ作業を行う
0
A
答えて
0
二つの方法
broadcast variableを使用してください。これは大部分が、すべてのエグゼキュータに大きな構造体をコピーするように調整されているため、そのユースケースに当てはまるかどうかはわかりません。私はそれがあなたのユースケースに当てはまるならば、これが正しいことを得るのがずっと容易だからと言います。
すべての設定作業を行う値を
lazy
に設定して、その値をRDD変換内で使用してください。値は変換前に必要とされないため、エバリュエーターに達するとその評価がトリガーされます。その後、lazy
によって、JVMインスタンスごとに1回だけ実行されるため、エグゼキュータごとに1回実行されます。私は現在のプロジェクトでこの手法を使用していますので、免責条項を追加する必要があります:直列化エラーを避けるためにこれを非常に慎重にコーディングする必要があります...シリアライズ可能ではないものあなたのセットアップコードで。
EDIT
私はあなたが「スカラ座」だけの「Java」をタグ付けしていない事実を逃したいくつかの理由ですみません。私が与えた助言は有効だと思いますが、そこに怠惰を得るためにちょっと働かなければならないでしょう - although that appears to not be too difficult now that Java 8 has lambdas。
関連する問題
- 1. Apache Spark:エグゼキュータでパーティションを処理する方法
- 2. Spark Structured StreamingエグゼキュータとKafkaパーティション間のマッピングの説明
- 3. Sparkで特定のエグゼキュータに1つのパーティションを保持する方法は?
- 4. Sparkエグゼキュータ上での並行タスク
- 5. Sparkエグゼキュータのオブジェクトキャッシュ
- 6. Sparkエグゼキュータはマルチスレッドですか?
- 7. sparkが単一のエグゼキュータ上で複数のパーティションを持つジョブを実行しています
- 8. Apache Sparkエグゼキュータの人数
- 9. エグゼキュータのSpark Object(シングルトン)シリアライズ
- 10. SparkエグゼキュータのログインIntelliJ IDEA
- 11. SparkアプリケーションのエグゼキュータIPを知るには?
- 12. Apache Sparkのパーティション
- 13. Innoセットアップ:特定の作業ディレクトリでregsvr32を実行します。
- 14. パーティションは日付持つタイムスタンプで作業されていない
- 15. spark mapPartitionsWithIndex空のパーティションを扱う
- 16. Sparkエグゼキュータの最大メモリ制限
- 17. python sparkがエグゼキュータのhttpサーバにアクセスできない
- 18. Spark scalaのエグゼキュータ間でオブジェクトをブロードキャストする方法は?
- 19. デバッグモードでイールド作業を行うには?
- 20. CassandraパーティションをSparkのワイド行のように感じさせるには?
- 21. Spark Dataframeでパーティション固有のクエリを実行しています
- 22. コマンドラインでGUIの作業を行うプログラムを書く
- 23. クローダマネージャのスパークジョブのエグゼキュータとパーティションの数を表示
- 24. RDDとApache Sparkのパーティション
- 25. 私のSpark Appは1人のエグゼキュータだけで動作しているのはなぜですか?
- 26. グローバルpdoオブジェクトなしでこの実行作業を行う
- 27. SPARK:すべてのパーティションでdropDuplicatesのみ
- 28. Sparkアプリケーションは1つのエグゼキュータのみを使用します
- 29. spark RDDでパーティションを作成する方法
- 30. Spark 2.0 csvパーティション数(PySpark)
ありがとうございます。私はそれにショットを与えます – weipengHU
私はhavaは放送変数を使用すると思ったが、私はブロードキャストする必要があるオブジェクトは、シリアル化可能ではない – weipengHU