2016-12-02 4 views
0

私は同じ長さの2つのRDDを持っていて、それらを無作為に一緒にジッパーしたいと思います(例えば最初のRDDは(A、B、C、D) Y、Z)と私は(AX、BZ、CW、DY)のようなランダムなジップをしたい。この使用pySparkを行うための高速な方法は何でしょうか。spark:スクランブルRDDとそれらをジップ

答えて

0

何が必要このですか?

x = sc.parallelize(['A','B','C','D']) 
y = sc.parallelize(['W','X','Y','Z']) 
x = x.takeSample(False, 4) 
y = y.takeSample(False, 4) 
combine = zip(x,y) 
combine 
>> [('D', 'Z'), ('B', 'X'), ('A', 'W'), ('C', 'Y')] 
+0

私は「take」したくないです、私は新しい順番で圧縮された古いRDDをランダムな順序で入れたいです。 e 'sample'と小数点以下の '1.0'は物事を並べ替えません。 – cgreen

0

することができます:

関連する問題