2016-05-11 5 views

答えて

0

org.apache.hadoop.mapred.FileInputFormat.getSplits()を参照してください。

ブロックサイズはS3ファイルシステムの実装によって異なります(FileStatus.getBlockSize()を参照)。例えば。 S3AFileStatusはちょうど0に等しく設定されます(そしてFileInputFormat.computeSplitSize()が出ます)。あなたのInputFormatが分割されていない場合

また、あなたが分割を得ることはありません:)それは、ブロックベースのファイルシステムであるかのように

0

スパークは、S3を扱いますので、HDFSおよびS3の入力のためのパーティショニングのルールは同じです。デフォルトでは1つのブロックにつき1つのパーティションが得られます。詳細にパーティショニングのルールをカバー私はthisを提案し、さらに読書、について

val inputRDD = sc.textFile("s3a://...") 
println(inputRDD.partitions.length) 

:それは、作成したパーティションを自分の番号を検査する価値があります。

関連する問題