現在、私はHadoopでいくつかのジョブを連鎖させる必要があります。 私は現在、ドンは2つの仕事を持っています。私の最初の仕事は地図機能、コンバイナー、減速機を持っています。まあ、私は減らすためのもう一つのフェーズが必要なので、私は単純なマップタスクを使用して、前のレデューサーの出力を最終レデューサーに渡す2番目の仕事を作成しました。 これは単純に連鎖する方法がなければならないので、これは少しばかげていることがわかります。さらに、私はそのようなI/Oが減少すると思います。Hadoop:0.20.203のジョブの連鎖
私は0.20.203バージョンを使用していますが、私はJobConfを使用してChainMapperとChainReducerの廃止予定の例しか見つけられません。 私が発見したこれら:ジョブ・クラスではなく203で廃止されJobConfで動作するようだが、203
出力をパスする独自の単純なマップタスクを作成しなければならないのはちょっと "愚かな"あなたの質問は何ですか?あなたは、異なるレデューサーの出力から同じキーを取得しますか? –
私は、最初のジョブの出力を2番目のジョブに渡さずに、2つのジョブを連鎖させたいと言っています。それは2つの仕事でそれを行うことは非常に簡単です、私はすでにそれを行っているので、私は知っています。しかし、hadoopはI/Oを減らしてジョブを連鎖させる最適化された方法を持っているので、私は単にこの方法を使いたいだけです。しかし、私はいつも廃止された例を見つける。私はhadoopに関する3冊の本を持っていますが、それらはすべて廃止された例を持っています。これまでに、2つの仕事を持つよりも効率的にそれを行う別の方法を見つけました。私はこのポストを維持しています。チェーン化についての他の投稿を見つけることはできません。(203版) – jojoba