2017-06-21 12 views
0

私は4つのデータフレームの列名を含む4つの配列を持っています。Scala Sparkの2つの配列の交差を特定する方法は?

var col1 = df1.columns 
var col2 = df2.columns 
var col3 = df3.columns 
var col4 = df4.columns 

これらはすべてArray [String]です。ここで問題となるのは、4つすべての配列に共通して存在する列とそうでない列を識別することです。 2つの配列の交差を見つけてループすることから始めてもいいと思います。何か案は ?これをN次元の配列に拡張できますか?

だから、アイデアはちょうど2つのアレイが、複数のアレイ間の交差点を特定しておらず、また、あなたがこれらの配列のリストを作成することができます

+2

実際にはその質問の重複はありません - OPは実際の値ではなく_列の名前と交差することに興味があるようです –

+2

[Scala Sparkで2つの配列列を比較する]の可能な複製(https://stackoverflow.com/questions/44158623/ 2つの配列を比較する - scala-spark) – jwvh

答えて

2

違いを識別し、intersect機能でreduceを使用します。

List(col1, col2, col3, col4).reduce((a, b) => a intersect b) 
関連する問題