HDFSに異なるデータフォーマットの2つのファイルがあります。両方のデータファイルを減らす必要があった場合、どのようにジョブを設定すればいいでしょうか?複数の入力フォーマットから縮小するHadoop
1つのファイルにスペースをワールド区切り文字とし、別のファイルにアンダースコアを付けるという共通の単語数の問題を想像してください。私のアプローチでは、共通のレデューサーにフィードするよりも、さまざまなファイル形式に異なるマッパーが必要です。
どうすればよいですか? また、私よりも優れたソリューションがありますか?
ありがとう、MultipleInputsクラスは私が探していたものです!どこでその情報を見つけるのですか?私はhadoop wiki、javadoc、googleを試しました... – konstantin
初めてこの特定のものを見たのはTom WhiteのHadoop:The Definitive Guideでした。 'MultipleInputs'のような豊富な宝石がありますが、それはあまりよく書かれていません。正確なクラス名を覚えていないので、実際にGoogleでこれを見つけるのは難しかった。今日はHadoopのより曖昧な地域のために、SOが最高の場所になるかもしれません。 –