私の最初の値がidで、2番目がstuffであるスケーリングジョブにrecords:TypedType[(String, util.List[String])]
があります。次想像:私は出力に指定したidのために互いに異なるレコードのみを希望ScaldingでList [String]のdiffを生成する
("1", ["a","b","c"])
("1", ["a","b","c"])
("1", ["a","b","c"])
("2", ["a","b"])
("2", ["a","b","c"])
("3", ["a","b","c"])
records.groupBy(_._1)
後。上の入力の場合、出力は次のようになります。
("2", ["a","b"])
("2", ["a","b","c"])
私はスケーリングを初めてとしています。これを達成するためのエレガントな方法は何ですか?
これはクラスタ上で実行する必要があります。スケーリングは基本的です – Gevorg