は2つのデータフレーム(スカラ、Apacheのスパーク1.6.1)ScalaとApache Sparkで2つのDataFramesを結合するには?
1)マッチがあり
MatchID | Player1 | Player2
--------------------------------
1 | John Wayne | John Doe
2 | Ive Fish | San Simon
2)個人データの 'BirthYear' が新しいデータフレームを作成することができますどのように
Player | BirthYear
--------------------------------
John Wayne | 1986
Ive Fish | 1990
San Simon | 1974
john Doe | 1995
両方のプレーヤーのために
MatchID | Player1 | Player2 | BYear_P1 |BYear_P2 | Diff
-------------------------------------------------------------
1 | John Wayne | John Doe | 1986 | 1995 | 9
2 | Ive Fish | San Simon | 1990 | 1974 | 16
?
は私がval df = MatchesDF.join(PersonalDF, MatchesDF("Player1") === PersonalDF("Player"))
が第2のプレーヤー
val resDf = df.join(PersonalDF, df("Player2") === PersonalDF("Player"))
のために再び参加しようとしたが、それは非常に時間のかかる作業です。
ScalaとApache Sparkで別の方法がありますか?
は再び2を行うとどのようにそれを改善するん、参加しますか? – void
これは約10000行の一致テーブルに対して約2分間実行され、 〜700レコードのプレーヤーテーブル – gmlvsv
は、より良いパフォーマンスのためにプレーンSQLではなく結合のデータフレームを使用します。 – dheee