2016-11-14 15 views
0

Spark 1.6.0を使用しています。分割された寄木細工データを読み取るためのDataFrame API。Sparkから寄木細工データを読み込むときのパーティション数

どのくらいのパーティションが使用されているのでしょうか。 、GB

  • 2182ファイル
  • 196パーティション
  • 2私がcountを実行するときので、そのスパークは2182のパーティションを使用しているようだ:

    ここでは、私のデータにいくつかの数字ですジョブは2182個のタスクに分割されます。 df.rdd.partitions.length

    によって確認されているように見えるだ

    はそれが正しいですか?すべての場合?

    はいの場合、データ量が大きすぎます(減らすにはdf.repartitionを使用する必要があります)。

答えて

0

はい再パーティション方法を使用して、使用可能なリソースとのバランスが取れるようにタスクの数を減らすことができます。ノードごとに実行者の数を定義する必要もあります。タスクを並列に実行し、最大限のリソースを利用するように、アプリケーションを送信しながらノードごとのメモリとノードごとのメモリを使用します。

関連する問題