私は(テストのためにハードコードされた配列から作成された)データフレームdf
注文
+----+----+---+
|name| c1|qty|
+----+----+---+
| a|abc1| 1|
| a|abc2| 0|
| b|abc3| 3|
| b|abc4| 2|
+----+----+---+
私はグループ化しdf1
import pyspark.sql.functions as sf
df1 = df.groupBy('name').agg(sf.min('qty'))
df1.show()
+----+--------+
|name|min(qty)|
+----+--------+
| b| 2|
| a| 0|
+----+--------+
を得るためにそれを集計していますを持っていると仮定
df1
の行の予想される順番は?
ユニットテストを書いているとします。 df1
と予想されるデータフレームを比較する必要があります。行の順序を無視してそれらを比較する必要があります。それを行う最善の方法は何ですか?
分散システムでは意味がありません。 – mtoto
ありがとうございます。確かに意味があります。 – Michael
'df1.collect()'から 'set'を作成して' expected'と比較するとどうなりますか? – Michael