Pyspark（key、value）の対と（key、[値のリスト]）の対

私は、次のようなSparkのキー値のペアを持っているとします。Pyspark（key、value）の対と（key、[値のリスト]）の対

[ (Key1, Value1), (Key1, Value2), (Key1, Vaue3), (Key2, Value4), (Key2, Value5) ]

ここでは、これを減らしたいと考えています。

[ (Key1, [Value1, Value2, Value3]), (Key2, [Value4, Value5]) ]

つまり、Key-ValueからKey-List of Valuesです。

マップを使用してこれを行うにはどうしたらいいですか？

出典

2017-09-15 Rohan

私は、これはあなたが探しているものであると信じて：https://stackoverflow.com/a/27002657/8160718 –

-1

もちろん、mapとreduceで行うことは可能ですが、確かに難読化の練習になるでしょう。反復的にそれをやっては簡単です：

lists={}  # key -> list of values 
output=[] 
for k,v in input: 
    l=lists.get(k) 
    if l is None: 
    l=lists[k]=[] 
    output.append((k,l)) # empty for now 
    l.append(v)

注意事項（それだけで単一の例からの要求を取得するのは難しいので）：

これは、キーがhashableであることを前提としています。
[(k1,v1),(k2,v2),(k1,v3)]などのリストをサポートしています。すべてのペアが隣接しているわけではありません。
最初に登場する順にキーをoutputのリストに入れます。
キーに表示される順序ですべての値（重複を含む）を置きます。

出典

2017-09-15 22:15:41

あなたはすべてを反復処理されますので、このコードは、キーと値のペアの数が多いために良いではありませんそれら。 –

私は 'pyspark'の専門家ではありません。アルゴリズムは[online]（https://en.wikipedia.org/wiki/Online_algorithm）という要件を前提としていますか？（Python 2では、 'map'と' reduce'はこれを行うことができません！）もしそうなら、単一のキーを持つすべてのペアが連続していると仮定できますか？ –

私は失礼ではありませんでした。私が言っていたことは、Sparkに関連する問題を考えるとき、データセットはしばしば大きく、上で書いたコードを実行するときには、masterノードがすべてをメモリにロードする必要があるようにcollect（）を呼び出す必要があります。実行可能ではありません。 OPはPysparkで 'map'と' reduce'を意味し、Pythonでは使われませんでした。 –

Pyspark（key、value）の対と（key、[値のリスト]）の対

答えて

関連する問題