サイズが39MBのファイルがあり、ブロックサイズを36MBに設定しました。ファイルがHDFSにアップロードされると、ファイルは2つのブロックに正常に保存されます。私は、このファイルに地図-削減の仕事(簡単な読み取りジョブ)を実行すると、ジョブカウンタが表示さ: 「INFO mapreduce.JobSubmitter:1:分割数」、それは2を検討しているされて入力分割を作成する(HADOOP)
単一の分割としてブロック、私の周りを見て、次の通りである分割サイズを計算するための公式を見つけた:
分割サイズ= MAX(MinSizeの、分(MAXSIZE、ブロックサイズ))
minsize = mapreduce.input.fileinputformat.split.minsizeおよびmaxsize = minsize = mapreduce.input.fileinputformat.split.maxsize。私は以下のプロパティを設定私のMRコードで今
:
Configuration conf = new Configuration()
conf.set("mapreduce.input.fileinputformat.split.minsize","1")
conf.set("mapreduce.input.fileinputformat.split.maxsize","134217728")
MinSizeプロパティ= 1バイトとMAXSIZE = 128 MBですので、式に従って分割サイズが36メガバイトであり、したがって、2つの分割すべきであるべきですあるが、それでも私は同じカウンタ出力を取得しています:
「 INFO mapreduce.JobSubmitter:分割数:1」は、誰もが理由を説明することはできますか?
どのようなファイルですか? –
これは.csvファイルです@BinaryNerd – User9523