Spark-scalaを使用して現在のSql QuerysをDataFramesに変換しています。複数の内部結合を実行するクエリがありました。実際にSqlContext.sql( "")私のチームは、私たちは再帰的に複数の条件を使用して複数のデータフレームを結合するSpark Scala
List(df1,df2,df3,dfN).reduce((a, b) => a.join(b, joinCondition))
を使用して参加することができます知っているようになった。しかし、私はそこにいるための条件の上に満足カント私の検索からのデータフレームの先頭
si s inner join
ac a on s.cid = a.cid and s.sid =a.sid
inner join De d on s.cid = d.cid AND d.aid = a.aid
inner join SGrM sgm on s.cid = sgm.cid and s.sid =sgm.sid and sgm.status=1
inner join SiGo sg on sgm.cid =sg.cid and sgm.gid =sg.gid
inner join bg bu on s.cid = bu.cid and s.sid =bu.sid
inner join ls al on a.AtLId = al.lid
inner join ls rl on a.RtLId = rl.lid
inner join ls vl on a.VLId = vl.lid
の操作を実行したいsqlContextに興味がありません複数の条件が含まれていますこれを実行するにはどうすればよいですか?
感謝を/ DataFramesオペレーション – Anji
DataSetオブジェクトを常に渡すようにすると、パフォーマンスが向上し、各オブジェクトがDataframeに変換されていない場合に作成されたときに各オブジェクトを監視し、明示的に列名の型ex select(col( "as")。を[String]とします)、あなたが 'sql'と比較するとsparkが最適化をしてくれる限り型指定されていないDataset re dataFrameを使用しているため、最適化は行われません –