S3バケットからファイルをロードするときにSparkが作成するパーティションの数はいくつですか？

ファイルがデフォルトでHDFSからロードされた場合、sparkはブロックごとに1つのパーティションを作成します。しかし、S3バケットからファイルがロードされたとき、どのようにパーティションを決定するのですか？S3バケットからファイルをロードするときにSparkが作成するパーティションの数はいくつですか？

出典

2016-05-11 Suhas Chandramouli

org.apache.hadoop.mapred.FileInputFormat.getSplits()を参照してください。

ブロックサイズはS3ファイルシステムの実装によって異なります（FileStatus.getBlockSize()を参照）。例えば。 S3AFileStatusはちょうど0に等しく設定されます（そしてFileInputFormat.computeSplitSize()が出ます）。あなたのInputFormatが分割されていない場合

また、あなたが分割を得ることはありません:)それは、ブロックベースのファイルシステムであるかのように

出典

2016-05-11 21:31:49

スパークは、S3を扱いますので、HDFSおよびS3の入力のためのパーティショニングのルールは同じです。デフォルトでは1つのブロックにつき1つのパーティションが得られます。詳細にパーティショニングのルールをカバー私はthisを提案し、さらに読書、について

val inputRDD = sc.textFile("s3a://...") 
println(inputRDD.partitions.length)

：それは、作成したパーティションを自分の番号を検査する価値があります。

出典

2016-05-11 21:35:50

S3バケットからファイルをロードするときにSparkが作成するパーティションの数はいくつですか？

答えて

関連する問題