Java MapReduceを使用して、Hadoopの2つのデータセットで高価なクロス製品の操作を実行したいとします。MapReduceのクロス製品
たとえば、データセットAとデータセットBのレコードがあります。データセットAの各レコードを、出力のデータセットBの各レコードに一致させたいと思います。私はこれの出力サイズは|A| * |B|
だと思っていますが、とにかくそれをやりたがっています。
私は豚がCROSS
を持っていますが、高レベルでどのように実装されているのか分かりません。おそらく、私はソースコードを見て行きます。
コードを探しているわけではなく、この問題にどのようにアプローチすべきかを高レベルで知りたいだけです。
AのすべてまたはBのすべてを1つのワーカーのメモリに収めることができますか?それはかなり簡単です。 –
@SeanOwen私は欲しい!残念ながら、これはそうではありません。私が考えていたアプローチの1つは、データセットBを〜10〜100に分割して分割し、10〜100の異なるmrジョブを一度に実行することでした。 –