20個のエグゼキュータと100個のファイルを含むフォルダを読み取るコードを含む10ノードのクラスタのパーティション数はいくらですか?スパークドキュメントからコアとエグゼキュータの数を考慮して、sparkでrddのパート数を決定する方法はありますか?
答えて
:デフォルトでは
、スパークは、ファイル (ブロックHDFSで、デフォルトでは64メガバイトである)のブロックごとに一つのパーティションを作成しますが、あなたはまた、パーティションの 高い数を求めることができますより大きな値を渡すことによって はブロックよりも少ないパーティションを持つことができます。
パーティションの数は、ファイルのサイズによっても異なります。ファイルサイズが大きすぎる場合は、より多くのパーティションを選択することができます。
スケーラ/ Javaオブジェクトのパーティション数RDDはマシンのコアに依存します.Hadoop入力ファイルを使用してRDDを作成する場合は、hdfsのブロックサイズ(バージョンに依存)に依存します
rdd.getNumPartitions
を次のようにspark.default.parallelism
設定を使用してチューンそれをそれはあなたが実行しているさまざまなモードで異なっているとすることができますRDDのパーティション数を見つけます。スパークのドキュメントから:なし親RDDSで並列化などの操作について
、それはクラスタマネージャ によって異なります。関連ドキュメントへ
Local mode: number of cores on the local machine Mesos fine grained mode: 8 Others: total number of cores on all executor nodes or 2, whichever is larger
リンク: http://spark.apache.org/docs/latest/configuration.html#execution-behavior
あなた自身することができますあなたが読んでいるデータに応じて、パーティションの数を自分で変更してください。SparkのAPIの中には、パーティションの数。 @Sandeep Purohitが
rdd.getNumPartitions
を言うと、それは作成され得ているパーティションの数になりますように作成行うなっているどのように多くのパーティションをチェックする
さらに!
それは2のAPI、すなわち使用して作成された後、あなたはまた、partitonsの数を変更することができます。合体および再分割する合体と配分
リンク:[どのように作業を分割んのSpark - repartition() vs coalesce()
- 1. タスクノード上のエグゼキュータのコア数を取得する方法は?
- 2. エグゼキュータでRDDを処理する方法
- 3. 時間を考慮して勤務時間のプログラミングロジックを決定する方法。
- 4. Alloy Analyzerが考慮するケースの数を見つける方法はありますか?
- 5. 夏時間を考慮してRRuleを指定する方法はありますか?
- 6. Sparkのコアあたりのスレッド数
- 7. Apache Sparkエグゼキュータの人数
- 8. Spark Streamingアプリケーションのエグゼキュータの数を設定する
- 9. スパークシェルのエグゼキュータとコアのデフォルト数
- 10. asyncioはGILを考慮してスレッドセーフではありません。
- 11. 各RDDのサイズが決して10 Mbを超えないことを考慮して、RDDをJSONファイルとして保存する問題
- 12. カスタムStatsDでエグゼキュータを設定する方法Sparkメトリックシンク
- 13. sparkの変換とrdd関数の違いは何ですか?
- 14. テキストノードを考慮して、最初の子のCSSセレクタはありますか?
- 15. a-zA-Zのみを考慮しトレーニングとテストの数字は意味がありますか?
- 16. Sparkエグゼキュータはマルチスレッドですか?
- 17. (YARNクライアントモードで)クラッシュした後にSparkエグゼキュータを再起動する方法はありますか?
- 18. サードパーティツールを使用しないで複数パートのzipファイルを抽出する方法はありますか?
- 19. OpenMPはどのようにしてシステムのコア数を決定しますか?
- 20. 文字と数字の混同を考慮する必要はありますか?
- 21. Spark scalaのエグゼキュータ間でオブジェクトをブロードキャストする方法は?
- 22. コールバックをaddEventListenerに渡す方法を決定する際に考慮すべき点は何ですか?
- 23. Sparkで特定のエグゼキュータに1つのパーティションを保持する方法は?
- 24. SELECTクエリの定数の意味は何ですか? 2クエリの下を考慮
- 25. ローカリゼーションを考慮して配列をソートする方法は?
- 26. nHibernateとデータベースへのアクセス方法は、パラメータは型/サイズを考慮しますか?
- 27. Sparkでエグゼキュータとドライバにカスタムlog4jプロパティを使用する方法
- 28. 他の2つの変数を考慮して1つの変数にフィルタを適用する方法
- 29. gmtime()関数はうるう年を考慮していますか?
- 30. RDDを6パートに分割する方法は?
が重複する可能性をスパーク?](http://stackoverflow.com/questions/26368362/how-does-partitioning-work-in-spark) –