2016-08-30 14 views
1

クエリのベースでDB2データベースから読み込もうとしています。クエリの結果セットは約2千万〜4,000万レコードです。 DFのパーティションは、整数の列に基づいて行われます。Dataframe Sparkでパーティション化の詳細を知る必要がある

私の質問は、一度データが読み込まれると、どのくらいの数のレコードがパーティションごとに作成されたかを確認できます。基本的に私がチェックしたいのは、データの歪みが起きているかどうかです。パーティションごとのレコード数を確認するにはどうしたらいいですか?あなたは、パーティションを超えるインスタンスマップ用とそのサイズを決定することができ

答えて

1

val rdd = sc.parallelize(0 until 1000, 3) 
val partitionSizes = rdd.mapPartitions(iter => Iterator(iter.length)).collect() 

// would be Array(333, 333, 334) in this example 

これはRDDおよびデータセット/データフレームAPIの両方で動作します。

関連する問題