0
Spark 1.6.0を使用しています。分割された寄木細工データを読み取るためのDataFrame API。Sparkから寄木細工データを読み込むときのパーティション数
どのくらいのパーティションが使用されているのでしょうか。 、GB
- 2182ファイル
- 196パーティション
- 2私が
count
を実行するときので、そのスパークは2182のパーティションを使用しているようだ:ここでは、私のデータにいくつかの数字ですジョブは2182個のタスクに分割されます。
df.rdd.partitions.length
によって確認されているように見えるだ
はそれが正しいですか?すべての場合?
はいの場合、データ量が大きすぎます(減らすには
df.repartition
を使用する必要があります)。