spark RDDでパーティションを作成する方法

私は、spark（scala）を使ってHDFSからファイルを読み込んでいます。 HDFSのブロックサイズは64 MBです。spark RDDでパーティションを作成する方法

HDFSファイルのサイズが130 MBであるとします。私は

scala> val distFile = sc.textFile("hdfs://user/cloudera/data.txt")

RDD

ベースに作成されているどのように多くのパーティション知っていただきたいと思い

は、それが真の無いことです。パーティションのサイズはブロックサイズに基づいて決定されますか？

上記の場合、パーティションの数は3ですか？

Here入力用のパーティション計算ロジックを記述する良い記事です。

HDFSブロックサイズは、パーティションの最大サイズです。だからあなたの例では、パーティションの最小数は、あなたがさらにsc.textFile(inputPath,numPartitions)

のようsc.textFileへのパラメータも別の設定mapreduce.input.fileinputformat.split.minsize劇としてことを渡すことで、パーティションの数を増やすことができます。3.

partitions = ceiling(input size/block size)

になります役割。パーティションのサイズを増やす（そしてパーティションの数を減らす）ように設定できます。したがって、mapreduce.input.fileinputformat.split.minsizeを130MBと設定すると、1つのパーティションしか得られません。

2016-05-10 17:25:26

よく分かります。あなたの説明のおかげで –

あなたがdistFile.partitions.size

を実行し、パーティション

の数を確認することができます

2016-05-10 17:23:30 algor

答えて