1
たとえば、2つのSparkジョブの出力があります。a:part-00000 part-00001 ... part-00099、b:part-00000 part-00001 ... part-00099です。Sparkを使用して2つのHDFSデータセットが等しいかどうかを確認するにはどうすればよいですか?
ラインの順序に関係なく、aがbと等しいかどうかをテストする簡単な方法はありますか?スパーク・パーティションの順序は同じではないので、aとbの-00000の部分は、aがbと等しくても異なる可能性があることに注意してください。