処理されたデータセット(クラスタ上)の結果をHDFSおよびリレーショナルデータベースに書き込むスパークジョブのパフォーマンスを微調整しようとしています。私はdataset.write().jdbc()とdataset.write().csv()メソッドをそれぞれ使用しています。これらの方法ですべての行がドライバノードに収集され、ジョブのパフォーマンスに影響を与えるかどうかは疑問です。spark dataset.write()はドライバノードで収集された行を生成しますか?
0
A
答えて
0
いいえ、コードでcollect
または3210を使用しない限り、各エグゼキュータは独自のRDDを書き込みます。
2
spark dataset.write()はドライバノードで収集された行を生成しますか?
これはありません。すべてのDataFrameWriter
メソッドは、収集することなく直接(各エグゼキュータはデータの独自の部分を書き込みます)機能します。
関連する問題
- 1. ScalaはSparkで非効率的に収集しますか?
- 2. ソケット接続から収集されたバイナリデータからビデオファイルを生成
- 3. 非同期でSparkでデータセットを収集
- 4. sparkはデータフレームから配列[行]ではなくArray [行]として収集します
- 5. Spark - ループ内で生成された行のリストからDataFrameを作成
- 6. Executorは、クラスタ展開モードでドライバノード上で実行されますか?
- 7. ガベージコレクタは続行されないGoルーチンを収集しますか?
- 8. インターネットから収集した画像を収集する
- 9. jdkで収集されたストリングプールガベージ1.7
- 10. は、Dataframe.toPandasは常にドライバノードまたはワーカーノードにありますか?
- 11. Flex Spark TextinputはGCでコンポーネントを収集できないようにします
- 12. luaはCからプッシュされたトーチのテンソルを収集しますか?
- 13. Objective-CはLinuxガベージで収集されていますか?
- 14. 行収集エラー
- 15. AngularJSで選択された行のデータを収集する方法は?
- 16. GCはイベントにフックされたラムダをいつ収集できますか?
- 17. 動的に生成されたフィールド(リスト)を使用してHTMLフォームからデータを収集
- 18. ダイナミックに作成されたテストスイートでエラーが収集されない
- 19. 収集されたセンサーデータ分析のソフトウェア
- 20. 収集されたコールバックガベージの問題
- 21. チャネルがバックグラウンドで実行され、データが収集されています
- 22. データバインドされたグリッドビューからデータを収集し、SQLクエリに追加します。
- 23. 私のSparkのドライバノードを見つける方法は?
- 24. GitHubはプルリクエストで参照されているダングリングコミットを収集しますか?
- 25. ワークフローで発生するjbpmエラーを収集します
- 26. jQueryを使用してAngularJSで生成された集計表の行
- 27. 収集を使わずにapache sparkのRDDで反復する
- 28. パーマネントはいつ収集されますか?
- 29. このChildWindowはGCによって収集されますか?
- 30. Pytest Xdistの異なるテストが収集されました
ああ私は合体を使用しました!本当に必要なの?私はちょうどいくつかの既存のコードをコピーしました! –
複数のエグゼキュータがある場合、各エグゼキュータは独自のファイルを作成しますが、例として、1つのファイルが必要な場合があります。次に、coalesce(1)を使用します。この呼び出しは、すべてのデータをドライバに渡し、1つのファイルを書き込みます。複数のファイルがうまくいけば、それは必要ありません。 – afsd
複数ファイルの場合、同じファイルの異なるパートファイルを意味しますか?どうやら、私はcsv()メソッドに1つのファイル名とパスを与え、その名前でそのファイルを読み込めるようにしたいと考えています。また、すべての行がデータベース内の同じテーブルに移動すると、合体によってwrite.jdbcにどのような影響が生じますか。 –