HadoopおよびMapReduceを初めて使用しています。 MyDir1/file1の MyDir1/FILE2 ... MyDir1/fileN1つのファイルまたはディレクトリを処理する1つのマッパーまたはリデューサ
MyDir2:私は次のように(10メガバイト大きく、N、各ファイルは100ファイルが圧縮または非圧縮することができるかもしれない)、この中にいくつかのディレクトリとファイルを持っています/ file1の MyDir2/FILE2 ... MyDir3/fileN
私は1つのマッパーまたは減速、すなわち、私はMyDir1は、複数のマッパーに分割することにしたいいけない全体MyDir1を処理したMapReduceアプリケーションを設計します。同様に、私はMyDir2を他のマッパー/レデューサーが分割することなく完全に処理したいと思っています。
これについてどうやったらいいですか?私自身のInputFormatを記述し、入力ファイルを読む必要がありますか?
私は実際に同じ2つの要件を持っています。ファイルの先頭にヘッダー情報があるので、分割しないようにする必要があります。マッパーごとにディレクトリが必要なので、ファイルのソート(日付/時刻による)が個々の行のソートよりもはるかに効率的であるため、そのディレクトリのファイルを処理できます。 – MikeKulls