私は階層的なディレクトリを持っています、各ディレクトリには多くのファイルがあり、各テキストファイルには多くのURL文字列があります.HadoopのすべてのファイルのすべてのURLをダウンロードしてバランスを取っていきたいです。Hadoopバランスを改善するために入力セットを分割する方法は?
たとえば、1 + 5ノードのHadoopクラスタと5つのURLs.Soがある場合は、5-in-oneファイルまたは1-per-file(次に5つのファイル)を入力としてより良いバランスを得る?
私は、Hadoopはデフォルトで64Mブロックを入力して1つのノードだけを実行し、5つのすべてのスレーブを実行することはできないと考えます。
ありがとうございます!