Sparkを使用して2つのHDFSデータセットが等しいかどうかを確認するにはどうすればよいですか？

たとえば、2つのSparkジョブの出力があります。a：part-00000 part-00001 ... part-00099、b：part-00000 part-00001 ... part-00099です。Sparkを使用して2つのHDFSデータセットが等しいかどうかを確認するにはどうすればよいですか？

ラインの順序に関係なく、aがbと等しいかどうかをテストする簡単な方法はありますか？スパーク・パーティションの順序は同じではないので、aとbの-00000の部分は、aがbと等しくても異なる可能性があることに注意してください。

出典

2017-08-02 Ruofei Shen

次の2つのデータフレーム（コモンライン）の交差を計算し、そのサイズをチェックすることができ：

val df1 = spark.read.parquet("file1") 
val df2 = spark.read.parquet("file2") 
val equal = df1.count == df2.count && df2.count == df1.intersect(df2).count

出典

2017-08-02 17:27:08

Sparkを使用して2つのHDFSデータセットが等しいかどうかを確認するにはどうすればよいですか？

答えて

関連する問題