私は、spark(scala)を使ってHDFSからファイルを読み込んでいます。 HDFSのブロックサイズは64 MBです。spark RDDでパーティションを作成する方法
HDFSファイルのサイズが130 MBであるとします。私は
scala> val distFile = sc.textFile("hdfs://user/cloudera/data.txt")
RDD
ベースに作成されているどのように多くのパーティション知っていただきたいと思いは、それが真の無いことです。パーティションのサイズはブロックサイズに基づいて決定されますか?
上記の場合、パーティションの数は3ですか?
よく分かります。あなたの説明のおかげで –