2016-09-07 3 views
5

誰でもスパークデータフレーム用に作成されるパーティションの数について説明することができます。スパークデータフレームのパーティション数

私はRDDの場合、作成中に以下のようなパーティションの数を言及することができます。

val RDD1 = sc.textFile("path" , 6) 

しかし、RDDのようなパーティションの数を指定するオプションがないように、スパークデータフレームを作成しているようです。

データフレームを作成した後、私たちはパーティション分割APIを使うことができます。

df.repartition(4) 

データフレームの作成中にパーティションの数を指定できるかどうかを教えてください。

+0

提供された解決策が問題に答える場合は、問題を解決するために受け入れるか、問題を解決できない理由についてコメントしてください。 – eliasah

答えて

8

一般的なケースではありませんが、少なくとも一般的なケースではありませんが、RDDと比べてそれほど違いはありません。たとえば、textFileのコード例では、minimum number of partitionsの制限のみが設定されています。一般的に

ローカル spark.default.parallelismを使用するローカルコレクションに rangetoDFのような方法を使用して生成
  • Datasets
  • DatasetsRDDから作成したものは、その親からのパーティション数を継承します。スパーク1.xで

  • 一部のデータソースでは、パーティション化をより詳細に制御できるオプションが追加されている場合があります。たとえば、JDBCソースを使用すると、パーティションの列、値の範囲、および必要なパーティション数を設定できます。
関連する問題