ファイルがデフォルトでHDFSからロードされた場合、sparkはブロックごとに1つのパーティションを作成します。しかし、S3バケットからファイルがロードされたとき、どのようにパーティションを決定するのですか?S3バケットからファイルをロードするときにSparkが作成するパーティションの数はいくつですか?
4
A
答えて
0
org.apache.hadoop.mapred.FileInputFormat.getSplits()
を参照してください。
ブロックサイズはS3ファイルシステムの実装によって異なります(FileStatus.getBlockSize()
を参照)。例えば。 S3AFileStatus
はちょうど0
に等しく設定されます(そしてFileInputFormat.computeSplitSize()
が出ます)。あなたのInputFormatが分割されていない場合
また、あなたが分割を得ることはありません:)それは、ブロックベースのファイルシステムであるかのように
0
スパークは、S3を扱いますので、HDFSおよびS3の入力のためのパーティショニングのルールは同じです。デフォルトでは1つのブロックにつき1つのパーティションが得られます。詳細にパーティショニングのルールをカバー私はthisを提案し、さらに読書、について
val inputRDD = sc.textFile("s3a://...")
println(inputRDD.partitions.length)
:それは、作成したパーティションを自分の番号を検査する価値があります。
関連する問題
- 1. S3バケットのサブディレクトリからAWS athenaパーティションを作成できますか?
- 2. phpで同時にローカルストレージから2つのS3バケット(バケットAとバケットB)にファイルを転送するには?
- 3. SparkでS3からネストされたcsvファイルをロードする
- 4. 誰がSpache SparkのRAMにパーティションをロードするのですか?
- 5. レールとクリップでいくつかの異なるs3バケットにアップロード
- 6. S3バケットからuiTableViewに画像をロード
- 7. Java SDKを使用してS3バケットから複数のファイルをS3バケットからダウンロードする方法
- 8. apache sparkでバケットを作成する
- 9. AWS S3バケットにフォームで作成されたファイルをアップロードする(
- 10. S3バケットにファイルをアップロードすることができません
- 11. s3バケットからファイルにアクセス中にERR_INSECURE_RESPONSEが発生する
- 12. HDFSはDistcp S3に - S3バケットにHDFSからファイルをコピーするためのアクセスキー
- 13. CakePHP 3.0からAWS S3バケットにファイルをアップロードする方法は?
- 14. sparkの1つのパーティション内に並列操作を作成することは可能ですか?
- 15. S3ラムダ関数でファイルを作成することはできますか?
- 16. amazon S3バケットに新しいフォルダを作成するには?
- 17. バケットから読み取るときのスパークパーティションの数 - S3 - GCS
- 18. 同じプロパティを持つ複数のS3バケットを雲の形で作成する
- 19. s3バケットから2ファイルを取得し、lambdaノードjsを使用してs3バケットにアップロードした後に1つのzipファイルを作成します。
- 20. AWS Athena on S3バケット(いくつかのJSONファイルあり)
- 21. Muleを使ってS3バケットからファイルをコピーすると、ファイルの名前を変更できますか?
- 22. SparkでS3バケットに書き込み、java.lang.NoClassDefFoundErrorを返します。
- 23. Sparkアプリケーションはいつ複数のジョブとステージを作成できますか?
- 24. Spark 2.0複数のデータフレームでS3のメタデータのロードがハングする
- 25. なぜSpark DataFrameが間違ったパーティション数を作成していますか?
- 26. S3バケットから特定のファイルをダウンロードする
- 27. パブリックS3バケットからboto3のファイルをダウンロードする
- 28. S3バケットのファイルをpysparkからアクセスする
- 29. S3バケットからのファイルのコピー
- 30. S3バケットからAWS ec2(インスタンス)にSQLをインポートできますか?