2
複数のSpark DataFrames(Scala)を効率的にマージ/結合するにはどうすればよいですか?私は、すべてのテーブルに共通の列である 'Date'を以下のように結合し、その結果として疎な配列を取得します。複数のデータフレームを結合する方法Spark Scala効率的な外部外部結合
Data Set A:
Date Col A1 Col A2
-----------------------
1/1/16 A11 A21
1/2/16 A12 A22
1/3/16 A13 A23
1/4/16 A14 A24
1/5/16 A15 A25
Data Set B:
Date Col B1 Col B2
-----------------------
1/1/16 B11 B21
1/3/16 B13 B23
1/5/16 B15 B25
Data Set C:
Date Col C1 Col C2
-----------------------
1/2/16 C12 C22
1/3/16 C13 C23
1/4/16 C14 C24
1/5/16 C15 C25
Expected Result Set:
Date Col A1 Col A2 Col B1 Col B2 Col C1 Col C2
---------------------------------------------------------
1/1/16 A11 A21 B11 B12
1/2/16 A12 A22 C12 C22
1/3/16 A13 A23 B13 B23 C13 C23
1/4/16 A14 A24 C14 C24
1/5/16 A15 A25 B15 B25 C15 C25
これは複数のテーブルで完全外部結合のように感じますが、わかりません。 DataFramesのJoinメソッドを使用しないで、この疎な配列を取得するには、より簡単で効率的な方法がありますか?
これはどのように動作するかを詳しく説明できますか? – banncee
私は自分の答えを編集し、いくつかのサンプルコードを追加しました。希望が役立ちます。 –